37
Wissensextraktion Prof. Dr. Jürgen Cleve / Prof. Dr. Uwe Lämmel Hochschule Wismar 26. Januar 2015 Infos Lehrveranstaltungen 2 V + 2 Ü, geteilt: Prof. Lämmel: NN Prof. Cleve: Klassische Verfahren Prüfung Projekt und MP 30min Skript, Folien, Übungen etc. in Stud.IP: Wissensextraktion Skript und Folien CopyShop Literatur Cleve/Lämmel: Data Mining, Oldenbourg 2014 http://www.wi.hs-wismar.de/dm-buch s. auch Skript und Stud.IP KNIME http://www.knime.org/ KNIME Desktop Modul DM in ILIAS, etliche Zusatzinfos (Videos, Tests) Weitere Infos unter Stud.IP Inhaltsverzeichnis Einführung Data Mining – Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung 1 Einführung Wissensextraktion 26. Januar 2015 Inhaltsverzeichnis Einführung Data Mining – Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung 1 Einführung Wissensextraktion 26. Januar 2015 Inhaltsverzeichnis – Kapitel 1 Einführung Data Mining und Business Intelligence Auswertung von Massendaten Ablauf einer Datenanalyse 1 Einführung Wissensextraktion Folie 1-1 (6) Einführung Data you don’t need is never lost. Ander’s first negative Principle of Computers Was ist Data Mining? 1 Einführung Wissensextraktion 1.1 Data Mining und Business Intelligence Folie 1-2 (7) Business Intelligence Business Intelligence (BI) ist ein relativ neuer Begriff. Effektiver/effizienter Umgang mit dem Unternehmenswissen für das Überleben wichtig 1 Einführung Wissensextraktion 1.1 Data Mining und Business Intelligence Folie 1-3 (8) Business Intelligence Nach und nach: Reihe von Techniken, Programmen etc. für Unternehmenswissen Heute: Business Intelligence Zusammenfassung dieser Techniken und Architekturen für eine effiziente Verwaltung/Analyse des Unternehmenswissens Aufgaben von BI: Wissensgewinnung, -verwaltung und -verarbeitung. Querbezüge zu Informationsmanagement Datenbanken/Data Warehouse Künstliche Intelligenz Data Mining (inkl. OLAP, Statistik)

Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

  • Upload
    tranbao

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

Wissensextraktion

Prof. Dr. Jürgen Cleve / Prof. Dr. Uwe Lämmel

Hochschule Wismar

26. Januar 2015

InfosLehrveranstaltungen 2 V + 2 Ü, geteilt:

I Prof. Lämmel: NNI Prof. Cleve: Klassische Verfahren

Prüfung Projekt und MP 30min

Skript, Folien, Übungen etc. in Stud.IP: Wissensextraktion

Skript und Folien CopyShop

Literatur Cleve/Lämmel: Data Mining, Oldenbourg 2014http://www.wi.hs-wismar.de/dm-buchs. auch Skript und Stud.IP

KNIME http://www.knime.org/ KNIME Desktop

Modul DM in ILIAS, etliche Zusatzinfos (Videos, Tests)

Weitere Infos unter Stud.IP

Inhaltsverzeichnis

Einführung

Data Mining – Grundlagen

Anwendungsklassen

Wissensrepräsentation

Methoden und Verfahren

Datenvorbereitung

Bewertung

1 Einführung Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis

Einführung

Data Mining – Grundlagen

Anwendungsklassen

Wissensrepräsentation

Methoden und Verfahren

Datenvorbereitung

Bewertung

1 Einführung Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis – Kapitel 1

EinführungData Mining und Business IntelligenceAuswertung von MassendatenAblauf einer Datenanalyse

1 Einführung Wissensextraktion

Folie 1-1 (6)

Einführung

Data you don’t need is never lost.Ander’s first negative Principle of Computers

Was ist Data Mining?

1 Einführung Wissensextraktion

1.1 Data Mining und Business Intelligence Folie 1-2 (7)

Business Intelligence

I Business Intelligence (BI) ist ein relativ neuer Begriff.

I Effektiver/effizienter Umgang mit dem Unternehmenswissen fürdas Überleben wichtig

1 Einführung Wissensextraktion

1.1 Data Mining und Business Intelligence Folie 1-3 (8)

Business Intelligence

I Nach und nach: Reihe von Techniken, Programmen etc. fürUnternehmenswissen

I Heute: Business Intelligence – Zusammenfassung dieserTechniken und Architekturen für eine effizienteVerwaltung/Analyse des Unternehmenswissens

I Aufgaben von BI: Wissensgewinnung, -verwaltung und-verarbeitung.

I Querbezüge zuI InformationsmanagementI Datenbanken/Data WarehouseI Künstliche IntelligenzI Data Mining (inkl. OLAP, Statistik)

Page 2: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

1 Einführung Wissensextraktion

1.1 Data Mining und Business Intelligence Folie 1-4 (9)

Business Intelligence – Definition

I Verschiedene Definitionen des Begriffs Business Intelligence.

I Business Intelligence im engeren/weiteren/weiten Sinn.

1 Einführung Wissensextraktion

1.1 Data Mining und Business Intelligence Folie 1-5 (10)

Business Intelligence – Definition

Business Intelligence im engeren Sinn:I Kernapplikationen, die eine Entscheidungsfindung direkt

unterstützen.I Online Analytical Processing (OLAP)I die Management Information Systems (MIS)I Executive Information Systems (EIS)I . . .

1 Einführung Wissensextraktion

1.1 Data Mining und Business Intelligence Folie 1-6 (11)

Business Intelligence – Definition

Etwas weiterer BI-Begriff:I alle Analyse-orientierten Anwendungen

I Data MiningI ReportingI Analytisches Customer Relationship ManagementI . . .

1 Einführung Wissensextraktion

1.1 Data Mining und Business Intelligence Folie 1-7 (12)

Business Intelligence – Definition

BI im weiten Verständnis:I Alle Anwendungen, die im Entscheidungsprozess benutzt

werden.I PräsentationssystemeI Datenspeicherung und -verwaltungI . . .

1 Einführung Wissensextraktion

1.1 Data Mining und Business Intelligence Folie 1-8 (13)

Business Intelligence – Definition

Abbildung Business Intelligence [Kemper et al.]

1 Einführung Wissensextraktion

1.1 Data Mining und Business Intelligence Folie 1-9 (14)

Business Intelligence – Data Mining

I Schwerpunkt dieser Vorlesung: Wissensextraktion / DataMining

I . . . nur kleiner Ausschnitt aus dem BI-Spektrum

1 Einführung Wissensextraktion

1.2 Auswertung von Massendaten Folie 1-10 (15)

Was fangen wir mit den Unmengen von Daten an?

Industrielle Prozessdaten

Umsatzdaten

Genom-Daten

Bilder

Textinformationen

1 Einführung Wissensextraktion

1.2 Auswertung von Massendaten Folie 1-11 (16)

Motivation

I weltweit stetig steigende DatenflutI grobe Schätzungen: Verdoppelung alle 20 Monate

I Daten über den initialen Zweck hinaus benutzen

I Data Mining = Datenschürfen

I Suche nach Mustern oder auffälligen Häufungen

I Suche nach Beurteilungskriterien für vorgegebene Ziele

I Ausführbar zu Zeiten schwacher Computerauslastung (z.B.nachts)

Page 3: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

1 Einführung Wissensextraktion

1.2 Auswertung von Massendaten Folie 1-12 (17)

Stories of success

I Erzeugen eines Entscheidungsbaums (generiert aus altenKreditdaten) als Entscheidungshilfe für die Bewertung derKreditwürdigkeit eines Kunden

I Generierung von Mustern von typischen Reisenden, um denVerkauf von Billigflügen oder -urlauben zu managen

I Windeln und Bier: Analyse des Kaufverhaltens ergibt, dassderjenige, der Windeln kauft, sehr häufig auch Bier kauft, abernicht umgekehrt.

I Analyse der Gene bei Diabetes-Kranken, um typische Gene zuerkennen

1 Einführung Wissensextraktion

1.2 Auswertung von Massendaten Folie 1-13 (18)

Vorhersage von Klausurnoten

<= 6 > 6

<= 6 > 6 <= 6 > 6

<= 1 > 1 <= 8 > 8

Grammatik

Logik TM

5 (17.0/1.0) Grundlagen 3 (2.0) Logik

5 (2.0) 4 (6.0/1.0) 3 (2.0/1.0) 2 (2.0)

Abb. 1: Entscheidungsbaum für die TI-Klausur 2013/14

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-14 (19)

Ablauf einer Datenanalyse

Folgende Phasen unterscheidet man beim Data Mining:

Selektion Auswahl der geeigneten Datenmengen

Datenvorverarbeitung Skalierung, Ausreißer . . .

Transformation Umwandlung in adäquate Datenformate

Data Mining eigentliches Suchen nach Mustern etc.

Interpretation / Evaluation Interpretation der Ergebnisse undAuswertung

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-15 (20)

Ablauf einer Datenanalyse

Datenselektion

Datenvorverarbeitung

Datentransformation

Data Mining

Interpretation

Evaluation &

Daten

bereinigte Daten

und

Muster

Information

Daten

Zieldaten

bereinigte

transformierte

Regeln

......

Wissen

Abb. 2: Ablauf eines Data-Mining-Prozesses [Fayyad et al.]

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-16 (21)

1.3.1 CRISP Data-Mining-Modell

CRISP Data-Mining-Modell

Das CRISP-DM-Modell wurde durch NCR, Daimler-Benz, ISL, OHRAentwickelt.Cross Industry Standard Process for Data Mining(http://www.crisp-dm.org/).Man geht von einem Lebenszyklus in 6 Etappen aus:

1. Verstehen der Aufgabe

2. Verständnis der Daten

3. Datenvorbereitung

4. Data Mining (Modellbildung)

5. Evaluation

6. Einsatz im & Konsequenzen für Unternehmen

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-17 (22)

1.3.1 CRISP Data-Mining-Modell

CRISP Data-Mining-Modell

Data

Understanding

Data

Understanding

Business

Deployment

Data

Preparation

Modelling

Evaluation

Abb. 3: CRISP-Modell

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-18 (23)

1.3.2 Datenselektion

Datenselektion

I Welche Daten sind verfügbar?

I Zusammenführen von Daten aus unterschiedlichen Quellen

I interne / externe Daten

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-19 (24)

1.3.3 Datenvorverarbeitung

Datenvorverarbeitung

I Qualität des Zieldatenbestands untersuchen und

I durch Einsatz geeigneter Verfahren verbessern

I Fehlerhafte Daten

I Fehlende Daten

I Ausreißer

Page 4: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-20 (25)

1.3.4 Datentransformation

Datentransformation

I Analyserelevanten Zieldatenbestand in ein solchesDatenbankschema transformieren,

I das von dem verwendeten Data-Mining-System verarbeitetwerden kann

I Attribute transformieren

I Dimensionsreduktion

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-21 (26)

1.3.5 Data Mining

Data Mining

I Verfahrensauswahl (z.B. Clusteranalyse)

I Konfiguration des Verfahrens

1 Einführung Wissensextraktion

1.3 Ablauf einer Datenanalyse Folie 1-22 (27)

1.3.6 Evaluation und Interpretation

Evaluation und Interpretation

I Bewertung der ResultateI Anforderungen:

I GültigkeitI NeuartigkeitI NützlichkeitI Verständlichkeit

2 Data Mining – Grundlagen Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis

Einführung

Data Mining – Grundlagen

Anwendungsklassen

Wissensrepräsentation

Methoden und Verfahren

Datenvorbereitung

Bewertung

2 Data Mining – Grundlagen Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis – Kapitel 2

Data Mining – GrundlagenBegriffeZwei BeispieleInterdisziplinaritätDatentypenAbstands- und ÄhnlichkeitsmaßeWeitere Grundbegriffe

2 Data Mining – Grundlagen Wissensextraktion

Folie 2-1 (30)

Data Mining – Grundlagen

If you file it, you’ll know where it is but you’ll never need it. If you don’tfile it, you’ll need it but never know where it is.

Tillis’s Organizational Principle

2 Data Mining – Grundlagen Wissensextraktion

2.1 Begriffe Folie 2-2 (31)

Daten

Definition 2.1 (Daten)

Ansammlungen von Zeichen mit der dazugehörigen Syntax werdenDaten genannt.

Daten→ Plural des lateinischen Datum, ein Informationselement.

I unstrukturierte Daten (Bild, Text)

I semistrukturierte Daten (WWW-Seiten)

I strukturierte Daten (Datenbanken)

2 Data Mining – Grundlagen Wissensextraktion

2.1 Begriffe Folie 2-3 (32)

Information

Definition 2.2 (Information)

Werden Daten mit einer Bedeutung gekoppelt, handelt es sich umInformationen.

Information→ zweckbestimmte Interpretation von Daten durch denMenschen

Page 5: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

2 Data Mining – Grundlagen Wissensextraktion

2.1 Begriffe Folie 2-4 (33)

Wissen

Definition 2.3 (Wissen)

Eine Information in Verbindung mit der Fähigkeit, diese zu benutzen,wird als Wissen bezeichnet.

Information, die man anzuwenden weiß→Wissen

2 Data Mining – Grundlagen Wissensextraktion

2.1 Begriffe Folie 2-5 (34)

Data Mining

Definition 2.4 (Data Mining)

Beim Data Mining (Datenschürfen) handelt es sich um die Extraktionvon Wissen aus Daten.

Data Mining ist die nichttriviale und automatische Suche nach Wissenin Massendaten. Man unterscheidet:

I Data Mining i.e.S. (strukturierte Daten)

I Web Mining (semistrukturierte Daten)

I Text Mining (unstrukturierte Daten)

2 Data Mining – Grundlagen Wissensextraktion

2.2 Zwei Beispiele Folie 2-6 (35)

Beispiele

In Warenhäusern werden an den Kassen die verkauften Warenelektronisch erfasst. Diese Daten werden in Datenbanken abgelegt,wodurch riesige Datenbestände über Verkaufsumsätze zur Verfügungstehen.Mit Hilfe von Data-Mining-Verfahren können nun verschiedeneAnalysen auf diesen Daten durchgeführt werden:

I Welche Waren werden häufig gemeinsam mit anderen gekauft?

I Wann werden welche Waren in welchen Mengen gekauft?

2 Data Mining – Grundlagen Wissensextraktion

2.2 Zwei Beispiele Folie 2-7 (36)

Beispiele

Benutzen dieser Informationen, um effizient bestimmte Aufgabenlösen zu können.

I Erkennen von Kundengruppen

I Zuschneiden von Werbeprospekten auf diese Kundengruppen

I gezieltes Versenden von Werbeprospekten an konkreteZielgruppen

2 Data Mining – Grundlagen Wissensextraktion

2.3 Interdisziplinarität Folie 2-8 (37)

Interdisziplinarität

Es gibt eine ganze Reihe von Bezügen des Data Mining zu anderenDisziplinen. Data Mining ist höchst interdisziplinär.

I Datenbanken

I Data Warehouses

I Wissensbasierte Systeme

I Maschinelles Lernen

I Statistik

I Visualisierung

2 Data Mining – Grundlagen Wissensextraktion

2.3 Interdisziplinarität Folie 2-9 (38)

Interdisziplinarität

Mining

Mathem

atik

Data

Intelligenz

Künstliche

Statistik

Datenbanken

Visualisierung

Computergraphik

Abb. 4: Interdisziplinarität

2 Data Mining – Grundlagen Wissensextraktion

2.4 Datentypen Folie 2-10 (39)

Datentypen

Man unterscheidet folgende wichtige Datentypen:

nominal Nominale Daten unterliegen keinerlei Rangfolge. Siekönnen lediglich nach dem Kriterium gleich bzw. nichtgleich sortiert werden.

ordinal Ordinale Daten haben zumindest eine Ordnungsrelation(wie <).

metrisch Metrische Daten besitzen alle Ordnungsmerkmale derreellen Zahlen. Man kann mit ihnen rechnen.

Verfeinerungen möglich:

I Intervalle (Geburtsjahr)

I Verhältniszahlen (Gewicht, Größe)

Gute Beispiele in [Dorian Pyle, S. 67].

2 Data Mining – Grundlagen Wissensextraktion

2.4 Datentypen Folie 2-11 (40)

Datentypen

nominal ordinal metrischFarbe Schulnote FlächeBeruf Schuhgröße GeschwindigkeitFamilienstand Erdbebenstärke KörpergrößeStaatsangehörigkeit Altersgruppe Kinderzahl

Tabelle 1: Beispiel Datentypen

Page 6: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

2 Data Mining – Grundlagen Wissensextraktion

2.4 Datentypen Folie 2-12 (41)

Umwandlung von ordinalen in metrische Daten

Betrachten ein Attribut mit den Ausprägungen klein, mittelgroß, groß,sehr groß .Umwandlung in metrisches Attribut:

I klein→ 0

I mittelgroß→ 0,3

I groß→ 0,7

I sehr groß→ 1

Achtung: Willkürliche Wahl der Zahlen beeinflusst den Abstandzwischen den Werten und eventuell das Resultat.

2 Data Mining – Grundlagen Wissensextraktion

2.5 Abstands- und Ähnlichkeitsmaße Folie 2-13 (42)

Abstands- und Ähnlichkeitsmaße

I dist(v ,w): Abstand zweier Datensätze

I simil(v ,w): Ähnlichkeit zweier Datensätze

Zur Bestimmung der Ähnlichkeit wird meist der Abstandherangezogen:

simil(v ,w) = f (dist(v ,w))

2 Data Mining – Grundlagen Wissensextraktion

2.5 Abstands- und Ähnlichkeitsmaße Folie 2-14 (43)

Eigenschaften von Distanzfunktionen

Eine Abstandsfunktion (auch Distanzfunktion genannt) solltefolgende Eigenschaften erfüllen:

I dist(x ,x) = 0

I dist(x ,y) = dist(y ,x)

I dist(x ,y)≤ dist(x ,z)+dist(z,y)

2 Data Mining – Grundlagen Wissensextraktion

2.5 Abstands- und Ähnlichkeitsmaße Folie 2-15 (44)

Distanzfunktionen

Folgende typische Distanzfunktionen gibt es:

I Hamming-Distanz: distH(v ,w) = counti(vi 6= wi)

I Euklidische Distanz: distE(v ,w) =√

∑i(vi −wi)2

I Manhattandistanz: distS(v ,w) = ∑i(|vi −wi |)

I Maximumdistanz: distMax(v ,w) = maxi(|vi −wi |)

I . . .

Minkowski-Distanz: distMinkowski(v ,w) = p√

∑i|vi −wi |p

2 Data Mining – Grundlagen Wissensextraktion

2.5 Abstands- und Ähnlichkeitsmaße Folie 2-16 (45)

Distanzfunktionen

6 8 10

2

4

6

8

10

2 4

distH = 2, distE ≈ 8.9, distMan = 12, distMax = 8

Abb. 5: Beispiel Distanzen

2 Data Mining – Grundlagen Wissensextraktion

2.5 Abstands- und Ähnlichkeitsmaße Folie 2-17 (46)

Aufgaben

Aufgabe 2.1 (Distanz)

Wenn man die Schritte des Königs auf einem Schachbrett als Distanzwählt, welchem Distanzbegriff entspricht das? Und welchem Begriffentspricht die Anzahl der Felder, die der Turm passieren müsste?

Aufgabe 2.2 (Distanz)

Berechnen Sie die Distanz zwischen den Punkten (0,1,2), (1,5,3) und(4,-2,3). Verwenden Sie dabei alle 4 aufgeführten Distanzfunktionen.

2 Data Mining – Grundlagen Wissensextraktion

2.5 Abstands- und Ähnlichkeitsmaße Folie 2-18 (47)

Aufgaben

Aufgabe 2.3 (Distanz)

Suchen Sie weitere Abstandsmaße.

Aufgabe 2.4 (Datentypen)

Welchen Typ von Daten haben wir bei den Postleitzahlen: nominal,ordinal, metrisch?

2 Data Mining – Grundlagen Wissensextraktion

2.6 Weitere Grundbegriffe Folie 2-19 (48)

Weitere Grundbegriffe

I Lernen aus gegebenen Beispielen: Instanzenmenge E .

I Lernen auf einer Teilmenge von E : Trainingsmenge T ⊂ E

I Validieren auf einer anderen Teilmenge von E (meist E \T ):Validierungsmenge

Page 7: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

2 Data Mining – Grundlagen Wissensextraktion

2.6 Weitere Grundbegriffe Folie 2-20 (49)

Lern-Strategien

I Nicht-überwachtes Lernen: Die zu entdeckenden Muster sindunbekannt.

I Überwachtes Lernen: Es werden Beispiele vorgegeben, z.B.Beispiele für Nadel- oder Laubbäume.

3 Anwendungsklassen Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis

Einführung

Data Mining – Grundlagen

Anwendungsklassen

Wissensrepräsentation

Methoden und Verfahren

Datenvorbereitung

Bewertung

3 Anwendungsklassen Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis – Kapitel 3

AnwendungsklassenKlassifikationClusteringNumerische VorhersageAssoziationsanalyseText MiningWeb Mining

3 Anwendungsklassen Wissensextraktion

Folie 3-1 (52)

Anwendungsklassen

All great discoveries are made by mistake.Young’s Law

I Klassifikation

I Clustering

I Numerische Vorhersage

I Assoziation

I Text Mining

I Web Mining

3 Anwendungsklassen Wissensextraktion

3.1 Klassifikation Folie 3-2 (53)

Klassifikation

Ziel der Klassifikation ist die Einteilung eines Gegenstandsbereichs(z.B. Kunden) in Klassen (normale / sehr gute Kreditwürdigkeit).

3 Anwendungsklassen Wissensextraktion

3.1 Klassifikation Folie 3-3 (54)

Klassifikation

Trainingsproben ⇒ Klassifikations-algorithmus

Name Alter Ein- Kredit-

kommen würd. ⇓Adam ≤ 30 niedrig normalBeate ≤ 30 niedrig sehr gut Klassifikations-Clemens 31. . . 40 hoch sehr gut regeln (z.B.)Diana > 40 mittel normal WENN Alter = 31. . . 40 UNDEgon > 40 mittel normal Einkommen = hoch DANNFrank 31. . . 40 hoch sehr gut Kreditwürdigkeit = sehr gut. . . . . . . . . . . .

Abb. 6: Klassifikation – Lernphase

3 Anwendungsklassen Wissensextraktion

3.1 Klassifikation Folie 3-4 (55)

Klassifikation

TestprobenName Alter Ein- Kredit- Bewertung

kommen würdigkeit durch RegelnGerda 31. . . 40 hoch sehr gut sehr gutHanno 31. . . 40 hoch normal sehr gutInge > 40 hoch sehr gut . . .. . . . . . . . . . . . . . .

Abb. 7: Klassifikation – Testphase

3 Anwendungsklassen Wissensextraktion

3.1 Klassifikation Folie 3-5 (56)

Klassifikation

Neue DatenName Alter Ein- Kredit- Bewertung

kommen würdigkeit durch RegelnJochen 31. . . 40 hoch ?? sehr gutKarl . . . . . . . . . . . .. . . . . . . . . . . . . . .

Abb. 8: Klassifikation – Anwendungsphase

Page 8: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

3 Anwendungsklassen Wissensextraktion

3.1 Klassifikation Folie 3-6 (57)

Klassifikation

Beispiel 3.1 (Klassifikation)

I Vorhersage, ob ein bestimmter Kunde auf eine Werbeaktionreagieren wird

I Zeichenerkennung (Kfz-Kennzeichen, Adressen etc.)

I Vorhersage von Erdbebenwahrscheinlichkeiten

Einige Verfahren:I Induktion von EntscheidungsbäumenI Induktion von KlassifikationsregelnI Neuronale Feedforward NetzeI Bayes-Verfahren

3 Anwendungsklassen Wissensextraktion

3.2 Clustering Folie 3-7 (58)

Clustering

Ziel der Clusteranalyse ist es, eine gegebene InstanzenmengeE (E ⊆ X) in verschiedene Teilmengen (Cluster) zu zerlegen. DieIndividuen innerhalb eines Clusters sollen dabei möglichst ähnlichsein, wohingegen Individuen verschiedener Cluster möglichstunähnlich sein sollen.

3 Anwendungsklassen Wissensextraktion

3.2 Clustering Folie 3-8 (59)

Clustering

GegebenI X Instanzenraum

I E ⊆ X Instanzenmenge

I dist : X ×X →ℜ+ Abstandsfunktion

I quality : 22X →ℜ Qualitätsfunktion

GesuchtI Clustermenge C = {C1, . . . ,Ck}, wobei:

I Ci ⊆ EI quality(C)→maxI Ci ∩Cj =� (optional)I C1∪ . . .∪Ck = E (optional)

3 Anwendungsklassen Wissensextraktion

3.2 Clustering Folie 3-9 (60)

Clustering

Abb. 9: Schlechtes und gutes Clustering

3 Anwendungsklassen Wissensextraktion

3.2 Clustering Folie 3-10 (61)

Clustering

Beispiel 3.2 (Clustern)

I Finden homogener Kundengruppen zur gezieltenAngebotsgestaltung

I OCR: Finden von Buchstabengruppen, die ähnliche Bilder haben,um spezialisierte Klassifikatoren zu entwickeln

Einige Verfahren:I k-Means-AlgorithmusI Selbstorganisierende Neuronale Netze (z.B. Kohonen Map,

Growing Neural Gas)

3 Anwendungsklassen Wissensextraktion

3.3 Numerische Vorhersage Folie 3-11 (62)

Numerische Vorhersage

Gegeben:I X Menge möglicher Instanzenbeschreibungen

I Y Menge möglicher Zielwerte

I E Menge von Beispielen (x ,y) ∈ X ×Y , wobei y = f (x)

Gesucht:I Funktion y ′ = h(x), so dass error(h, f )→min.

3 Anwendungsklassen Wissensextraktion

3.3 Numerische Vorhersage Folie 3-12 (63)

Numerische Vorhersage

Beispiel 3.3 (Numerische Vorhersage)

I Vorhersage von Verkaufszahlen zur Lageroptimierung

I Vorhersage von Aktienkursen

I Zeitreihenanalyse

Einige Verfahren:I Lineare RegressionI RegressionsbäumeI Neuronale Netze (Feed forward)

3 Anwendungsklassen Wissensextraktion

3.4 Assoziationsanalyse Folie 3-13 (64)

Assoziationsanalyse

Assoziation beschäftigt sich mit der Erkennung und Quantifizierungvon Zusammenhängen und Abhängigkeiten von Attributen.

I unabhängig von der eigentlichen Klassifikation

I Suche nach Zusammenhängen zwischen den Attributen

Beispiel 3.4 (Assoziationsanalyse)

Ein Versandhaus erkennt:

I Wer A kauft, kauft häufig auch B.

Also: Anpassung des Angebotsverhaltens

Page 9: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

3 Anwendungsklassen Wissensextraktion

3.4 Assoziationsanalyse Folie 3-14 (65)

Einordnung in das Data Mining

I Identifikation von Regelmäßigkeiten, Herausarbeiten von Regeln

I Vorhersage des „Verhaltens“ neuer DatensätzenI Anwendungsgebiete:

I Risikoabschätzung im Kreditwesen, VersicherungsbrancheI Spielanalyse gegnerischer FußballmannschaftenI . . .

Einige Verfahren:I A-Priori-VerfahrenI ART-Netze

3 Anwendungsklassen Wissensextraktion

3.5 Text Mining Folie 3-15 (66)

Text Mining

Text Mining beschäftigt sich mit der Analyse von Textdokumenten.Texte sind im Gegensatz zu Datenbanken und Web-Seitenunstrukturiert.

3 Anwendungsklassen Wissensextraktion

3.6 Web Mining Folie 3-16 (67)

Web Mining

Web Content Mining

Web Usage Mining

3 Anwendungsklassen Wissensextraktion

3.6 Web Mining Folie 3-17 (68)

Web Mining

Web Mining

Web Content Mining Web Usage Mining

Web Log MiningIntegrated

Web Usage Mining

Abb. 10: Web Mining

3 Anwendungsklassen Wissensextraktion

3.6 Web Mining Folie 3-18 (69)

Web Log Mining

I Internet bedeutende Plattform für die Abwicklung geschäftlicherProzesse

I Wichtig: Gute Web-Präsenz

I Web Log Mining: Analyse des Nutzer-Verhaltens, umRückschlüsse für Optimierung der Web-Präsenz zu ziehen.

4 Wissensrepräsentation Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis

Einführung

Data Mining – Grundlagen

Anwendungsklassen

Wissensrepräsentation

Methoden und Verfahren

Datenvorbereitung

Bewertung

4 Wissensrepräsentation Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis – Kapitel 4

WissensrepräsentationEntscheidungstabellenEntscheidungsbäumeKlassifikationsregelnAssoziationsregelnInstanzenbasierte DarstellungCluster

4 Wissensrepräsentation Wissensextraktion

Folie 4-1 (72)

Wissensrepräsentation

Quality is inversely proportional to the time left for completion of theproject.

Wright’s first law of quality.

1. Entscheidungstabellen

2. Entscheidungsbäume

3. Klassifikationsregeln

4. Assoziationsregeln

5. Instanzenbasierte Darstellung

6. Cluster

Page 10: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

4 Wissensrepräsentation Wissensextraktion

4.1 Entscheidungstabellen Folie 4-2 (73)

Entscheidungstabellen

Eine Entscheidungstabelle ist die tabellarische Auflistung möglicherBedingungen (Eingaben) und des gewünschten Ergebnisses(Ausgabe), das jeder Bedingung entspricht.

4 Wissensrepräsentation Wissensextraktion

4.1 Entscheidungstabellen Folie 4-3 (74)

EntscheidungstabellenBeispiel 4.1 (Entscheidungstabelle)

In Tabelle 2 ist eine Entscheidungstabelle für das Golfspiel gegeben.

outlook temperature humidity windy playsunny hot high false nosunny hot high true nosunny mild high false nosunny mild normal true yessunny cool normal false yesovercast hot high false yesovercast hot normal false yesovercast mild high true yesovercast cool normal true yesrainy mild high false yesrainy mild normal false yesrainy mild high true norainy cool normal false yesrainy cool normal true no

Tabelle 2: Entscheidungstabelle für Golf-Spiel

4 Wissensrepräsentation Wissensextraktion

4.2 Entscheidungsbäume Folie 4-4 (75)

Entscheidungsbäume

Repräsentationsform, bei der die Ergebnisse einer Bedingungverzweigt dargestellt werden. Diese Verzweigungen können wiederumandere Verzweigungen generieren.

I graphisch aufbereitete Darstellung

I Entscheidungen einfach nachvollziehbar

4 Wissensrepräsentation Wissensextraktion

4.2 Entscheidungsbäume Folie 4-5 (76)

EntscheidungsbäumeBeispiel 4.2 (Golfspiel)

In Abbildung 11 ist ein möglicher Entscheidungsbaum für dasGolf-Beispiel angegeben.

overcast

normalhigh

sunny rainy

false true

outlook

humidity

yesno yes no

yes windy

Abb. 11: Entscheidungsbaum Golf-Spiel

4 Wissensrepräsentation Wissensextraktion

4.2 Entscheidungsbäume Folie 4-6 (77)

Entscheidungsbäume

Abb. 12: WEKA-Entscheidungsbaum Golf-Spiel

4 Wissensrepräsentation Wissensextraktion

4.3 Klassifikationsregeln Folie 4-7 (78)

Klassifikationsregeln

Die Einteilung in Klassen wird mittels Regeln dargestellt.

I UND-verknüpfte Auswertung der Attribute

I ODER-Verknüpfung mehrerer Regeln

Beispiel 4.3 (Golfspiel)

IF outlook = sunny AND humidity = high THEN play = no

IF outlook = rainy AND windy = true THEN play = no

IF outlook = overcast THEN play = yes

IF humidity = normal THEN play = yes

IF none of the above THEN play = yes

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-8 (79)

Assoziationsregeln

I Suche nach Zusammenhängen zwischen den Attributen

I unabhängig von der eigentlichen Klassifikation

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-9 (80)

Warenkorbanalyse

Warenkorbanalyse: In einem Supermarkt werden an der Kasse dieWarenkörbe aller Kunden erfasst.

I Wenn Waschpulver gekauft wird, wird i. allg. auch Weichspülergekauft:IF waschpulver THEN weichspüler

I Wenn Fisch gekauft wird, wird i. allg. kein Fleisch gekauft:IF fisch THEN ¬ fleisch

I Wenn Sekt gekauft wird, werden i. allg. auch Pralinen gekauft:IF sekt THEN pralinen

Page 11: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-10 (81)

Golfspiel

Beispiel 4.4 (Golfspiel)

Man kann Assoziationsregeln auch folgendermaßen darstellen.

IF temperature = cool

THEN humidity = normal

IF humidity = normal AND windy = false

THEN play = yes

IF outlook = sunny AND play = no

THEN humidity = high

IF windy = false AND play = no

THEN outlook = sunny AND humidity = high

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-11 (82)

4.4.1 Einfache Assoziationsregeln

Einfache Assoziationsregeln

I Mengen von Items I

I Menge von Aktionen T

I Assoziationsregel: Implikation mit Angaben über die Häufigkeitihres Auftretens in T

I Prämisse A, Konsequenz B sind Konjunktionen von Elementenaus I (Itemsets), z.B.A = {I1, I2, I3} und B = {I7}

I A∩B ≡ /0I Form der Regel: A→ B

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-12 (83)

4.4.1 Einfache Assoziationsregeln

Einfache Assoziationsregeln

Die Regel{bier, chips}→ {tvzeitung}

ist also als abkürzende Schreibweise für die Regel

IF bier=yes AND . . . THEN . . .

zu verstehen.

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-13 (84)

4.4.1 Einfache Assoziationsregeln

Support und Konfidenz

Support: relative Häufigkeit eines Itemsets in der Menge der Aktionen

supp(A→ B) = P(A∪B)

Konfidenz: relative Häufigkeit einer Regel in der Menge der Aktionen

conf(A→ B) =supp(A→ B)

supp(A)

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-14 (85)

4.4.1 Einfache Assoziationsregeln

Support und Konfidenz

Beispiel 4.5 (Support und Konfidenz)

Wie hoch sind Support und Konfidenz der Regel

IF temperature = cool THEN humidity = normal

supp(temperature = cool → humidity = normal) = P(A∪B) =4

14

supp(temperature = cool) = P(A) =4

14

conf(A→ B) =supp(A→ B)

supp(A)=

414414

= 1

Die Regel ist also absolut sicher, sie hat einen Support von 27 .

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-15 (86)

4.4.2 Schwellwerte

Schwellwerte

I Bei großen Datenbanken: sehr viele Regeln (103,104, . . .)möglich,

I . . . auch seltene Regeln und Regeln mit geringer Konfidenz

Lösung:I Einführung von Schwellwerten: suppmin, confmin

I Festlegung durch Analysten

Nicht jede unsinnige Regel ist damit zu verhindern:{Person lebt}→ {Person atmet}

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-16 (87)

4.4.2 Schwellwerte

AssoziationsregelnBeispiel 4.6 (Assoziationsregeln)

In Abb. 13 sind die WEKA-apriori-Assoziationsregeln dargestellt.

Minimum support: 0.15 Minimum metric <confidence>: 0.9Best rules found:1. humidity=normal windy=FALSE 4 ==> play=yes 4 conf:12. temp=cool 4 ==> humidity=normal 4 conf:13. outlook=overcast 4 ==> play=yes 4 conf:14. temp=cool play=yes 3 ==> humidity=normal 3 conf:15. outlook=rainy windy=FALSE 3 ==> play=yes 3 conf:16. outlook=rainy play=yes 3 ==> windy=FALSE 3 conf:17. outlook=sunny humidity=high 3 ==> play=no 3 conf:18. outlook=sunny play=no 3 ==> humidity=high 3 conf:19. temp=cool windy=FALSE 2 ==> humidity=normal play=yes 2 conf:1

10. temp=cool humidity=normal windy=FALSE 2 ==> play=yes 2 conf:1

Abb. 13: Assoziationsregeln für Golf-Spiel

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-17 (88)

4.4.3 Arten von Assoziationsregeln

Arten von Assoziationsregeln

I hierarchische Assoziationsregeln (Taxonomien)

I temporale Assoziationsregeln (Sequenzanalyse)

I quantitative Assoziationsregeln

I unscharfe Assoziationsregeln

Wozu weitere Arten?I Verbessern der Aussagekraft von Regeln

I Genauere Vorhersagen (Zahlen, Ausprägungen)

I Anpassen an Problemgebiet

Page 12: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-18 (89)

4.4.3 Arten von Assoziationsregeln

Hierarchische Assoziationsregeln

Idee:I Gruppierung von Items und Itemsets

I Generalisierung (vergleichbar Vererbung in OO)

Beispiel 4.7 (Hierarchische Assoziationsregeln)

Messer, Gabel → BesteckDoppelpass, Flanke → Angriff

Ergebnis:I Reduktion der Anzahl der Regeln

I Erhöhung der Support-Werte

I Algorithmus: Einfügen der Oberbegriffe als Items

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-19 (90)

4.4.3 Arten von Assoziationsregeln

Quantitative Assoziationsregeln

Idee:I Aufnahme konkreter Attributausprägungen (Zahlen,

Zeichenketten)

I Vorhersage von Einkommen, Kinderzahl, . . .

Vorgehen:

1. Einteilung des Wertebereichs in Intervalle (Klassifizierung).

2. Für jedes Intervall wird ein neuer Begriff geschaffen.

3. Die originalen Begriffe werden durch die neuen ersetzt.

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-20 (91)

4.4.3 Arten von Assoziationsregeln

Quantitative AssoziationsregelnBeispiel 4.8 (Quantitative Assoziationsregeln)

Alter Anzahl Kinder Einkommen23 0 200028 1 250034 0 450045 2 350065 5 4000

Neue Klassifizierung:

I Alter: [0,29], [30,49], [50,∞)

I Kinder: [0,1], [2,∞)

I Einkommen: [0,2999], [3000,∞)

(Alter ∈ [0,29],Einkommen ∈ [0,2999])→ (Kinder = 0/1)

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-21 (92)

4.4.3 Arten von Assoziationsregeln

Unscharfe Assoziationsregeln

Problem:I starre Intervallgrenzen der quantitativen Regeln

I Ausreißer, Messfehler (Physik, Messdaten)

Lösung:I sprachliche Begriffe statt fester Intervallgrenzen,

z.B.: jung, alt, früh, spät

I Zuordnung zu Gruppen nach Fuzzy-Logik-Methoden

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-22 (93)

4.4.3 Arten von Assoziationsregeln

Unscharfe Assoziationsregeln

Beispiel 4.9 (Unscharfe Assoziationsregeln)

Ein Call-Center plant, Daten der eingehenden Anrufe zu speichern,(u.a.):

I Zeitpunkt, an dem der Anruf angenommen wurde.

Ziel: Sortierung der Anrufe nachTageszeiten

I z.B.: Nacht, Morgen, Nachmittag und Abend.

I Das Intervall Nacht endet um 6 Uhr, ihm folgt das IntervallMorgen. Der Morgen endet um 12 Uhr und geht in denNachmittag über usw.

Überschneidungen durch Fuzzy-Modelle darstellbar.

4 Wissensrepräsentation Wissensextraktion

4.4 Assoziationsregeln Folie 4-23 (94)

4.4.3 Arten von Assoziationsregeln

Temporale Assoziationsregeln

Idee:I Erfassung zeitlich abhängiger Aktionen

I Beispiel: hoher Bierkonsum am Freitag→ hoher Konsum vonKopfschmerztabletten am Samstag

Umsetzung:I Temporale Datenbanken

I Regeln als Schnappschüsse aktueller Zusammenhänge

I Beobachtung der Veränderungen der Zusammenhänge

Anwendung: Logfile-Analyse

4 Wissensrepräsentation Wissensextraktion

4.5 Instanzenbasierte Darstellung Folie 4-24 (95)

Instanzenbasierte Darstellung

Bei der instanzenbasierten Darstellung werden – ähnlich wie beimAuswendiglernen – einfach alle Individuen gespeichert, z.B. in einerrelationalen Datenbank.

4 Wissensrepräsentation Wissensextraktion

4.6 Cluster Folie 4-25 (96)

Cluster

Wird eine Grundgesamtheit in Teilmengen zerlegt, deren Individuenzueinander ähnlicher als zu den Individuen der anderen Teilmengensind, bezeichnet man diese Teilmengen als Cluster.

Page 13: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

4 Wissensrepräsentation Wissensextraktion

4.6 Cluster Folie 4-26 (97)

Cluster

BedingungenI Individuen innerhalb eines Clusters zueinander ähnlich

I Individuen unterschiedlicher Clusters zueinander unähnlich

DarstellungI Instanzenbasiert

I Cluster-Zentrum (Codebook-Vector): Centroid oder Medoid

I über Wahrscheinlichkeitsverteilungen

4 Wissensrepräsentation Wissensextraktion

4.6 Cluster Folie 4-27 (98)

Cluster

x Centroid

Medoid

Abb. 14: Centroid und Medoid

4 Wissensrepräsentation Wissensextraktion

4.6 Cluster Folie 4-28 (99)

Cluster

k-Means======Number of iterations: 4Within cluster sum of squared errors: 26.0Cluster centroids:Cluster 0 Mean/Mode: sunny mild high FALSE yes

Std Devs: N/A N/A N/A N/A N/ACluster 1 Mean/Mode: overcast cool normal TRUE yes

Std Devs: N/A N/A N/A N/A N/AClustered Instances0 10 ( 71%) 1 4 ( 29%)

Abb. 15: Cluster für das Wetter-Beispiel

5 Methoden und Verfahren Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis

Einführung

Data Mining – Grundlagen

Anwendungsklassen

Wissensrepräsentation

Methoden und Verfahren

Datenvorbereitung

Bewertung

5 Methoden und Verfahren Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis – Kapitel 5

Methoden und VerfahrenInstanzenbasiertes LernenEntscheidungsbaumlernenVerfahren zur AssoziationsanalyseLineare RegressionÜberwachte und selbstorganisierende unüberwachte neuronaleNetzeVerfahren zur ClusterbildungNaive Bayes

5 Methoden und Verfahren Wissensextraktion

Folie 5-1 (102)

Methoden und Verfahren

A carelessly planned project takes three times longer to complete thanexpected; a carefully planned project takes only twice as long.

Golub’s Second Law of Computerdom

5 Methoden und Verfahren Wissensextraktion

Folie 5-2 (103)

Hinweis

Bei den studentischen Projekten (unter meiner Homepage) findet maneine Reihe von Verfahren erläutert. Benutzen Sie ebenso denILIAS-Modul Data Mining.

5 Methoden und Verfahren Wissensextraktion

Folie 5-3 (104)

Verfahren – Übersicht

Klassifikation

Assoziation

Clustering

Numer.

Vorhersage

Text

Mining

Web

Mining

Instanzenbasiertes Lernen xk Nearest Neighbour x (x) (x)

Entscheidungsbaumlernen x (x)a priori x x x

Lineare Regression xÜberwachte Neuronale Netze x x x

Selbstorganisierende Neuronale Netze (x) xk-means x

Naive Bayes x x

Tabelle 3: Data-Mining-Verfahren und Anwendungsklassen

Page 14: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-4 (105)

Instanzenbasiertes Lernen

I einfachstes Verfahren

I Speicherung aller bekannten Individuen

I Suche des ähnlichsten Individuums

I Dessen Klasse wird vorhergesagt.

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-5 (106)

5.1.1 k Nearest Neighbour

k Nearest Neighbour

x

y

Abb. 16: Beispiel k Nearest Neighbour

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-6 (107)

5.1.1 k Nearest Neighbour

k Nearest Neighbour

I instanzenbasiertes Verfahren

I Lernschritt: Beispielobjekte nur gespeichert

I Klassifikationsschritt: Unbekannte Objekte werden überÄhnlichkeit zu gespeicherten Beispielen klassifiziert.

I Komplexität des Verfahrens nur durch den Klassifikationsschritt

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-7 (108)

5.1.2 Der kNN-Algorithmus

Der kNN-Algorithmus

Der Lernschritt beim kNN-Lernen ist sehr einfach.

I Sei f (x) die zu erlernende Funktion.

I Für jedes Trainingsbeispiel (x , f (x)) speichere das Beispiel ineiner Liste Trainingsbeispiele.

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-8 (109)

5.1.2 Der kNN-Algorithmus

kNN – Diskrete Funktion

I V := {v1,v2, ...,vm} eine endliche Menge (Zielattributwerte)

I zu erlernende Funktion: f : ℜn→ V

I zu klassifizierendes Beispiel: y

Für alle xi in der Menge Trainingsbeispiele berechne die Ähnlichkeit zuy . Wähle diejenigen k Beispiele x1,x2, . . . ,xk aus, die zu y amähnlichsten sind.

klasse(y) := maxv∈V

k

∑p=1

δ(v , f (xp)) mit δ(a,b) :={

1, falls a=b0, sonst

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-9 (110)

5.1.2 Der kNN-Algorithmus

kNN

Beispiel 5.1 (kNN)

Nr Alter verheiratet Eigenheim Akademiker Einkommen1 alt ja ja ja hoch2 alt ja nein nein gering3 mittel nein nein nein gering4 mittel ja ja ja hoch5 jung nein nein nein gering6 jung ja nein nein mittel7 jung ja ja ja mittel8 alt nein ja nein hoch

Einkommen für jung/verheiratet/ohne Eigenheim/Akademiker. k=2.

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-10 (111)

5.1.2 Der kNN-Algorithmus

kNN

Beispiel 5.1 cont.

Nr Alter verheiratet Eigenheim Akademiker Abstandneu jung ja nein ja1 alt ja ja ja 22 alt ja nein nein 23 mittel nein nein nein 34 mittel ja ja ja 25 jung nein nein nein 26 jung ja nein nein 17 jung ja ja ja 18 alt nein ja nein 4

Datensätze 6 und 7: Gehaltsgruppe mittel.

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-11 (112)

5.1.2 Der kNN-Algorithmus

kNN – Reellwertige Funktion

I analog diskreter Fall

I Zurückgegeben wird der Mittelwert

Für alle xi in der Menge Trainingsbeispiele berechne die Ähnlichkeit zuy . Wähle diejenigen k Beispiele x1,x2, . . . ,xk aus, die zu y amähnlichsten sind.

f’(y) :=

k∑

p=1f (xp)

k

Page 15: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-12 (113)

5.1.3 Ein verfeinerter Algorithmus

kNN – Ein verfeinerter Algorithmus

I Schwäche von kNN: alle k Beispiele sind gleichgewichtet

I geringer (euklidischer) Abstand = hohe Ähnlichkeit

I also: Gewichte einführen

I Shepard’s method

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-13 (114)

5.1.3 Ein verfeinerter Algorithmus

Diskrete Funktionen

I als Gewicht: das Inverse des Quadrats der Distanz

Sei wieder V := {v1,v2, ...,vm} die Menge aller Werte, die dasZielattribut annehmen kann. Für alle xi in der MengeTrainingsbeispiele berechne die Ähnlichkeit zu y . Wähle diejenigen kBeispiele x1,x2, . . . ,xk aus, die zu y am ähnlichsten sind.

klasse(y) :=

f (xi) falls y = xi für ein i

maxv∈V

k∑

p=1wp×δ(v , f (xp)) sonst

mit δ(a,b) :={

1, falls a=b0, sonst

und wp :=1

dist(y ,xp)2 .

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-14 (115)

5.1.3 Ein verfeinerter Algorithmus

Reellwertige Funktionen

Für alle xi in der Menge Trainingsbeispiele berechne die Ähnlichkeit zuy . Wähle diejenigen k Beispiele x1,x2, . . . ,xk aus, die zu y amähnlichsten sind.

f’(y) :=

f (xi) falls y = xi für ein ik∑

p=1wp×f (xp)

k∑

p=1wp

sonst

mit wp :=1

dist(y ,xp)2 .

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-15 (116)

5.1.4 Anmerkungen

Anmerkungen

I Für k � 1 arbeitet der kNN-Algorithmus i. allg. auch beiverrauschten Trainingsdaten sehr gut.

I Im Gegensatz beispielsweise zum Entscheidungsbaum werdenalle Attribute in die Berechnung einbezogen.

I Die Auswahl der Trainingsdaten verdient einige Beachtung. So istz.B. von Bedeutung, dass die Trainingsvektoren denLösungsraum möglichst gleichmäßig aufspannen.

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-16 (117)

5.1.4 Anmerkungen

Aufgabe 5.1 (kNN)

Klassifizieren Sie folgende Datensätze mittels kNN.Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Wartenja nein ja einige nein Franz. 30-60ja ja ja voll ja Chin. 10-30

nein nein nein keine nein Burger 0-10

I Alternative: Gibt es ein geeignetes anderes Restaurant? (ja/nein)I Fr/Sa: Ist Freitag oder Samstag? (ja/nein)I Hungrig: Bin ich hungrig? (ja/nein)I Gäste: Wieviele Leute sind im Restaurant? (keine/einige/voll)I Reservierung: Habe ich reserviert? (ja/nein)I Typ: Um welche Art von Restaurant handelt es sich?I Wartezeit: Welche Wartezeit wird vom Restaurant geschätzt?I Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind?

5 Methoden und Verfahren Wissensextraktion

5.1 Instanzenbasiertes Lernen Folie 5-17 (118)

5.1.4 Anmerkungen

Aufgabe 5.1 cont.

Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Wartenja nein ja einige ja Franz. 0-10 jaja nein ja voll nein Chin. 30-60 nein

nein nein nein einige nein Burger 0-10 jaja ja ja voll nein Chin. 10-30 jaja ja nein voll ja Franz. >60 nein

nein nein ja einige ja Ital. 0-10 janein nein nein keine nein Burger 0-10 neinnein nein ja einige ja Chin. 0-10 janein ja nein voll nein Burger >60 neinja ja ja voll ja Ital. 10-30 nein

nein nein nein keine nein Chin. 0-10 neinja ja ja voll nein Burger 30-60 ja

Tabelle 4: Restaurant-Beispiel

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-18 (119)

5.2.1 Erzeugen eines Entscheidungsbaums

Entscheidungsbaumlernen – Algorithmus

I Gegeben: Beispielmenge E und Attributmenge A

Auswählen eines Attributs a ∈ AErzeugen der mit a markierten BaumwurzelFür jede Ausprägung ω ∈ ωa (ωa = Ausprägungsmenge von a)

1. Erzeugen einer mit ω markierten Kante

2. Generieren der Beispiel-Menge Eω ⊂ E : ∀e ∈ Eω : ωa(e) = ω3. I Wenn Eω = /0: Beenden der Kante mit NIL

I Sonst:Wenn alle Beispiele e ∈ Eω in derselben Klasse k sind: Kante mitBlatt k abschließen Sonst:

3.1 Erzeugen eines Entscheidungsbaums aus AttributmengeA′ = A\{a} und Beispielmenge Eω

3.2 Einhängen dieses Baums am Kantenende

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-19 (120)

5.2.1 Erzeugen eines Entscheidungsbaums

Entscheidungsbaumlernen – Golfspiel

Tag outlook temperature humidity windy play1 sunny hot high false no2 sunny hot high true no3 overcast hot high false yes4 rainy mild high false yes5 rainy cool normal false yes6 rainy cool normal true no7 overcast cool normal true yes8 sunny mild high false no9 sunny cool normal false yes10 rainy mild normal false yes11 sunny mild normal true yes12 overcast mild high true yes13 overcast hot normal false yes14 rainy mild high true no

Tabelle 5: Daten Golfspiel

Page 16: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-20 (121)

5.2.1 Erzeugen eines Entscheidungsbaums

Entscheidungsbaumlernen – Golfspiel

outlook

sunny overcast rainy

windy

normal

humidity

high false true

Wurzelattribut (a)

Ausprägungen

von outlook

1,2,8,9,11

3,7,12,13

yes

yesno yes no

4,5,6,10,14

E = alle Daten

sunny= DatensätzeE

rainy= DatensätzeE

Abb. 17: Entscheidungsbaum Golf-Spiel

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-21 (122)

5.2.2 Auswahl eines Attributs

Auswahl eines Attributs

manuell (durch Benutzer)

zufällig

berechnet

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-22 (123)

5.2.2 Auswahl eines Attributs

Automatische Attributwahl

Beispiel 5.2 (Automatische Attributwahl)

I Attribut mit lokal bester Klassifikationsleistung

I probeweise Teilung an allen Attributen

I Vorhersage der Mehrheitsklasse

I Auswahl des Attributs mit der geringsten Fehlerrate errora

error(ωa) =falschalle

errora = ∑i(|Aωai ||A| ∗error(ωai)) → min.

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-23 (124)

5.2.3 Metrische Attribute

Metrische Attribute

Für jede Ausprägung (d.h. jede vorkommende Zahl) eine eigeneKante ? → Unsinnig !!Lösung:

Gruppierung Zusammenfassung zu Intervallen

Schwellwerte nur 2 Kanten (kleiner / größer Schwellwert)

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-24 (125)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID3-Algorithmus zur Entscheidungsbaumgenerierung

Nr. Zielattr. frühere Kredit- Verschul- Sicher- Ein-Risiko würdigkeit dung heiten kommen

1 hoch schlecht hoch keine 0 bis 152 hoch unbekannt hoch keine 15 bis 353 mittel unbekannt niedrig keine 15 bis 354 hoch unbekannt niedrig keine 0 bis 155 niedrig unbekannt niedrig keine über 356 niedrig unbekannt niedrig angemessen über 357 hoch schlecht niedrig keine 0 bis 158 mittel schlecht niedrig angemessen über 359 niedrig gut niedrig keine über 3510 niedrig gut hoch angemessen über 3511 hoch gut hoch keine 0 bis 1512 mittel gut hoch keine 15 bis 3513 niedrig gut hoch keine über 3514 hoch schlecht hoch keine 15 bis 35

Tabelle 6: Kreditrisiko

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-25 (126)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID3-Algorithmus zur Entscheidungsbaumgenerierung

Abb. 18: Entscheidungsbaum

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-26 (127)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID3-Algorithmus zur Entscheidungsbaumgenerierung

Abb. 19: Entscheidungsbaum 2

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-27 (128)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID3-Algorithmus zur Entscheidungsbaumgenerierung

Welcher Baum ist für die Klassifikation der unbekannten Datensätzeoptimal? Der ID3-Algorithmus unterstellt, dass dies der einfachsteBaum ist.

Page 17: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-28 (129)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID3-Algorithmus zur Entscheidungsbaumgenerierung

FUNCTION induce_tree(Beispielmenge Ex, Attribute Attr)IF alle Eintraege aus Ex gehoeren zur gleichen Klasse

THEN RETURN Blattknoten mit Beschriftung dieser KlasseELSE

Waehle ein Attribut A aus Attr;Setze A als Wurzel fuer den aktuellen Baum;Loesche A aus Attr;FOREACH Wert AV von AErstelle Kante im Baum mit Kantenbeschriftung AV;Seien Ex_AV alle Elemente von Beispielmenge Ex,

die als Wert fuer A gerade AV haben;Ergebnis der Kante AV := induce_tree(Ex_AV,Attr);

END FOREACH;END IF;

END.

Abb. 20: Algorithmus Entscheidungsbaum

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-29 (130)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

Auswahl eines geeigneten Attributs ?

I Grundlage: Informationstheorie

I Wahl des Attributs, das den größten Informationsgewinn liefert.

Der Informationsgehalt eines Attributs B wird gemessen als:

I(B) =k

∑i=1−p(bi)× log2(p(bi))

I Dabei stellen die bi die möglichen Werte des Attributs B dar.

I p ist die Wahrscheinlichkeit (besser: relative Häufigkeit) für dasEintreffen von bi .

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-30 (131)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

Informationsgehalt der Kredit-Tabelle

I p(Risiko hoch) = 614

I p(Risiko mittel) = 314

I p(Risiko niedrig) = 514

Folglich ist I(Risiko) =

I(Tabelle)=− 614× log2(

614

)− 314× log2(

314

)− 514× log2(

514

)= 1,531

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-31 (132)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID 3 und maximaler InformationsgewinnMan wählt das Attribut mit dem maximalen Informationsgewinn.

unbekannt schlecht gut

I(Tabelle) Alle Datensätze

Kreditwürdigkeit ?

Teiltabelle 2Teiltabelle 1 Teiltabelle 3

Kreditwürdigkeit = gut

Kreditwürdigkeit = schlechtKreditwürdigkeit = unbekannt

G(Kreditwürdigkeit)

Abb. 21: Informationsgewinn

Informationsgewinn = I(Tabelle)−G(Kreditwürdigkeit)

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-32 (133)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID 3 und Informationsgewinn

I Beispielmenge E (die komplette DB) gegeben.

I Wählt man ein Attribut B mit n Ausprägungen aus, so wird E in nTeilmengen (Teildatenbanken) zerlegt: {E1, . . . ,En}.

I Mit B als Wurzel des Baums ist die zur Fertigstellung des Baumsvoraussichtlich erforderliche Informationsmenge:

G(B) =n

∑j=1

|Ej ||E | I(Ej)

G (gain) ist die gewichtete Summe der Einzelinformationen.Der Gewinn an Information wird dann berechnet als:

gewinn(B) = I(E)−G(B)

Es gilt, gewinn zu maximieren. Dazu geht man alle Attribute durchund wählt jenes aus, das den maximalen Gewinn liefert.

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-33 (134)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID 3 und InformationsgewinnI Wählen zunächst Kreditwürdigkeit als Attribut.

I Kreditwürdigkeit hat 3 Ausprägungen: unbekannt, schlecht, gut.I Für jeden Wert zählen wir, wie oft welches Risiko vorkommt:

Wert hohes Risiko mittleres Risiko niedriges Risikounbekannt 2 1 2schlecht 3 1 0

gut 1 1 3

I(Kreditw_unbek) =−25 × log2(

25)− 1

5 × log2(15)− 2

5 × log2(25) = 1,52

I(Kreditw_schlecht) =−34 × log2(

34)− 1

4 × log2(14) = 0,81

I(Kreditw_gut) =−15 × log2(

15)− 1

5 × log2(15)− 3

5 × log2(35) = 1,37

G(Kreditwürdigkeit) =n∑

j=1

|Ej ||E | I(Ej) =

514 ×1,52+ 4

14 ×0,81+ 514 ×1,37 = 1,265

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-34 (135)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID 3 und Gain-Berechnung

(14)

hoch = 1xmittel = 1xniedrig = 3x

hoch = 6x

mittel = 3x

niedrig = 5x

hoch = 2xmittel = 1xniedrig = 2x niedrig = 0x

mittel = 1xhoch = 3x

unbekannt

5x

schlecht

4x

gut 5x

I(Tabelle) = 1,531 Gesamte Tabelle

Kreditwürdigkeit ?

Teiltabelle 2Teiltabelle 1 Teiltabelle 3

... = gut... = schlechtKreditwürdigkeit = unbekannt

1,52

I =

0,81

I = I =

1,37

G(Kreditwürdigkeit) = 5/14 * 1,52 + 4/14 * 0,81 + 5/14 * 1,37

Abb. 22: Gain-Berechnung

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-35 (136)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

ID 3 – Beispiel

I gewinn(kreditwuerdigkeit) = 1,531−1,265 = 0,266

I gewinn(einkommen) = 1,531−0,564 = 0,967

I gewinn(verschuldung) = 1,531−1,468 = 0,063

I gewinn(sicherheiten) = 1,531−1,325 = 0,206

Man wählt nun einkommen als obersten Knoten, da der Gewinn dortam größten ist, und setzt das Verfahren für jeden Teilbaum rekursivfort.

Page 18: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-36 (137)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

Fortsetzung für Zweig einkommen=15-35

I nur noch die Datensätze, wo einkommen=15-35 gilt

I Spalte für Einkommen eigentlich nun unnötig

Nr. Zielattr. frühere Kredit- Verschul- Sicher- Ein-Risiko würdigkeit dung heiten kommen

2 hoch unbekannt hoch keine 15 bis 353 mittel unbekannt niedrig keine 15 bis 3512 mittel gut hoch keine 15 bis 3514 hoch schlecht hoch keine 15 bis 35

Tabelle 7: Kreditrisiko

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-37 (138)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

Informationsgehalt der reduzierten Kredit-Tabelle

I p(Risiko hoch) = 24

I p(Risiko mittel) = 24

I p(Risiko niedrig) = 04

Folglich ist I(Risiko) =

I(Tabelle2) =−24× log2(

24)− 2

4× log2(

24)− 0

4× log2(

04) = 1

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-38 (139)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

Attribut mit maximalem Informationsgewinn

Nun wählt man wieder das Attribut aus, das den maximalenInformationsgewinn erzielt.

I gewinn(kreditwuerdigkeit) = 1−0,5 = 0,5

I gewinn(verschuldung) = 1−0,6887 = 0,3113

I gewinn(sicherheiten) = 1−1 = 0

Man wählt folglich kreditwuerdigkeit als nächsten Knoten, da derGewinn dort am größten ist.

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-39 (140)

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums

Der Gini-Index

Der Gini-Index ist das Äquivalent zum Informationsgehalt einerTabelle bezüglich eines Zielattributs B:

gini(B) = 1−k

∑i=1

p(bi)2

I Dabei stellen die bi die möglichen Werte des Attributs B dar.

I p ist die Wahrscheinlichkeit (besser: relative Häufigkeit) für dasEintreffen von bi .

Analog zum Gain definiert man dann

GINI(B) =n

∑j=1

|Ej ||E | gini(Ej)

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-40 (141)

5.2.5 C4.5-Algorithmus

C4.5-Algorithmus

I Wesentlicher Nachteil des ID3-Algorithmus: kann nicht mitnumerischen Attributen umgehen

I C4.5 (Nachfolger von ID3) kann dies.

I Numerische Attribute in Intervalle unterteilt→ ordinale Attribute

I Betrachten Attribut A mit n Ausprägungen A1, . . . ,An

I Für jedes i: Bilden Intervalle [a|a≤ Ai ] und [a|a > Ai ]

I 2 Intervalle: neue (ordinale) Ausprägungen des Attributs A

I Wählen die Intervallbildung, die den größten Gewinn liefert.

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-41 (142)

5.2.5 C4.5-Algorithmus

ISplit

Bemerkung 5.1 (ISplit)

Der ID3-Algorithmus hat einen weiteren Nachteil: Die Sortierung derAttribute favorisiert Attribute mit vielen verschiedenen Ausprägungen.Deshalb normalisiert C4.5 den Informationsgewinn. Sei:

ISplit(B) =−n

∑j=1

|Ej ||E | × log2(

|Ej ||E | )

Der Gewinn an Information wird dann normalisiert:

gewinn’(B) =gewinn(B)ISplit(B)

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-42 (143)

5.2.5 C4.5-Algorithmus

ISplit

Beispiel 5.3 (ISplit)

Betrachten Ausschnitt aus einer Kino-Besuch-Datenbank.

Preis 8 5 5 9 8 8 4 5 8 8 9 8Kino besucht j n j j n j j n n j j n

Variante 1:

I 4/5⇒ billig: 4Ausprägungen

I 8/9⇒ teuer: 8Ausprägungen

Variante 2:

I 4⇒ billig: 1 Ausprägung

I 5⇒ moderat: 3 Ausprägungen

I 8⇒ teuer: 6 Ausprägungen

I 9⇒ sehr teuer: 2 Ausprägungen

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-43 (144)

5.2.5 C4.5-Algorithmus

ISplit

Beispiel 5.3 cont.

Gain:

I Variante 1: 0,97

I Variante 2: 0,73

Damit wird der Gewinn bei Variante 2 größer sein.Typischer Effekt: Attribute mit vielen Ausprägungen bevorzugt.Deshalb: Dividieren Informationsgewinn durch den ISplit:

I ISplit Variante 1: 0,92

I ISplit Variante 2: 1,73

Größerer ISplit reduziert den Gewinn für Variante 2 stärker.

Page 19: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-44 (145)

5.2.6 Probleme

Probleme

I I. allg. großes Problem: Entscheidungsbaum kann ALLETrainingsdaten korrekt klassifizieren,

I . . . aber auf den Testdaten nicht gut funktionieren.

I Entscheidungsbaum hat Trainingsdaten auswendig gelernt.

I Effekt wird Overfitting genannt.I Verkürzen der Bäume nötig:

I Keine weiteren Unterbäume, wenn eine bestimmte Anzahl vonTrainingsdaten unterschritten wird.

I Ersetzen bereits generierter Unterbäume durch ein Blatt.

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-45 (146)

5.2.6 Probleme

ACHTUNG !!

Entscheidungsbaum wird Trainingsdaten häufig nicht zu 100% korrektvorhersagen, durch:

I das Reduzieren der Tiefe des Baums (s.o.) oder

I widersprüchliche Daten.

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-46 (147)

5.2.7 Ergänzungen

Ergänzungen

I ID3 – Top down induction of decision trees (TDIDT).

I Es wird univariater Baum erzeugt. (An jedem Knoten wird exaktein Attribut abgefragt.)

I Es gibt auch Verfahren, die multivariate Entscheidungsbäumegenerieren.

I Jetzt können in einem Knoten mehrere Attribute benutzt werden.I Z.B. als Linearkombination von Attributen: Gewicht + 2 * Größe <

70.I Schnitte im Merkmalsraum linear, aber nicht mehr achsenparallel.I Auch nichtlineare Ausdrücke abfragbar: Gewicht / (Größe*Größe)

< 25.I Nun sind die Schnitte im Merkmalsraum beliebig kurvig.

I Vorteil: meist genauer und kleiner.

I Nachteil: schwieriger zu bauen und auch schwerer lesbar

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-47 (148)

5.2.8 Aufgaben

Aufgaben

Aufgabe 5.2 (Golfspiel)

Bestimmen Sie aus den folgenden Daten einen Entscheidungsbaumfür das Attribut ‘Play?’, welches angibt, ob unter den gegebenenWitterungsbedingungen Golf gespielt wird. Wählen Sie bei gleicherGüte zweier Attribute das in der Tabelle weiter links stehende. Wiegehen Sie mit den numerischen Werten um?

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-48 (149)

5.2.8 Aufgaben

GolfbeispielAufgabe 5.2 cont.

Outlook Temp (◦F) Humidity (%) Windy? Play?sunny 85 85 false nosunny 80 90 true no

overcast 83 78 false yesrain 70 96 false yesrain 68 80 false yesrain 65 70 true no

overcast 64 65 true yessunny 72 95 false nosunny 69 70 false yesrain 75 80 false yes

sunny 75 70 true yesovercast 72 90 true yesovercast 81 75 false yes

rain 71 80 true no

Tabelle 8: Daten Golfspiel

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-49 (150)

5.2.8 Aufgaben

RestaurantbeispielAufgabe 5.3 (Restaurant)

Tabelle mit diesen Attributen:

I Alternative: Gibt es in der Nähe ein anderes Restaurant? (ja/nein)

I Fr/Sa: Ist Freitag oder Samstag? (ja/nein)

I Hungrig: Bin ich hungrig? (ja/nein)

I Gäste: Wieviele Leute sind im Restaurant? (keine/einige/voll)

I Reservierung: Habe ich reserviert? (ja/nein)

I Typ: Um welche Art von Restaurant handelt es sich?(Franz./Chin./Ital./Burger)

I Wartezeit: Welche voraussichtliche Wartezeit wird vomRestaurant geschätzt? (0-10/10-30/30-60/>60)

I Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind?(ja/nein)

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-50 (151)

5.2.8 Aufgaben

Restaurantbeispiel

Aufgabe 5.3 cont.

Generieren Sie einen Entscheidungsbaum und klassifizieren Sienachfolgende Datensätze.

Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Wartenja nein ja einige nein Franz. 30-60ja ja ja voll ja Chin. 10-30

nein nein nein keine nein Burger 0-10

5 Methoden und Verfahren Wissensextraktion

5.2 Entscheidungsbaumlernen Folie 5-51 (152)

5.2.8 Aufgaben

RestaurantbeispielAufgabe 5.3 cont.

Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Wartenja nein ja einige ja Franz. 0-10 jaja nein ja voll nein Chin. 30-60 nein

nein nein nein einige nein Burger 0-10 jaja ja ja voll nein Chin. 10-30 jaja ja nein voll ja Franz. >60 nein

nein nein ja einige ja Ital. 0-10 janein nein nein keine nein Burger 0-10 neinnein nein ja einige ja Chin. 0-10 janein ja nein voll nein Burger >60 neinja ja ja voll ja Ital. 10-30 nein

nein nein nein keine nein Chin. 0-10 neinja ja ja voll nein Burger 30-60 ja

Tabelle 9: Daten Restaurantbeispiel

Page 20: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-52 (153)

Verfahren zur Assoziationsanalyse

Wir wenden uns nun der Aufgabe zu, Assoziationsregeln zu finden.Der Standard-Algorithmus ist der A-Priori-Algorithmus.

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-53 (154)

5.3.1 Der A-Priori-Algorithmus

Der A-Priori-Algorithmus

Der A-Priori-AlgorithmusI gehört zu den wichtigsten iterativen Verfahren

I Grundlage AIS-Algorithmus 1993

Ziel:I Finden von Frequent Itemsets

I Itemsets, deren Support über suppmin

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-54 (155)

5.3.1 Der A-Priori-Algorithmus

Vorgehensweise

Der A-Priori-Algorithmus wird in zwei Schritten vollzogen:

1. Finden von Frequent Itemsets (Kandidaten) mit ausreichendemSupport

2. Erzeugen von Assoziationsregeln aus allen Frequent Itemsets

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-55 (156)

5.3.1 Der A-Priori-Algorithmus

Generierung der Kandidaten

Diese Phase läuft in zwei Teilschritten ab:

I Join-Phase

I Pruning-Phase

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-56 (157)

5.3.1 Der A-Priori-Algorithmus

Join- und Pruning-Phase

Join-Phase:I Erzeugen von Frequent Itemsets der Länge k mit k > 2

I paarweises Verbinden aller (k−1)-langen Sets, die sich in einemElement unterscheiden

I Ergebnis: k -elementige Menge, in der zwei Teilmengen FrequentItemsets sind

Pruning-Phase:I Zerlegen der Frequent Itemsets in Teilmengen

I Test, ob alle diese Teilmengen Frequent Itemsets sind(Monotonieeigenschaft)

I Algorithmus endet, wenn keine Frequent Itemsets mehr gefundenwerden

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-57 (158)

5.3.1 Der A-Priori-Algorithmus

A Priori – Beispiel

Beispiel 5.4 (A priori)

Betrachten Kinobesuche. Wer geht gern mit wem ?

Kinobesuch-ID Kinobesucherk1 Anne, Claudia, Ernstk2 Anne, Ernst, Gudrunk3 Anne, Claudia, Ernst, Franz, Gudrunk4 Anne, Claudia, Horstk5 Bernd, Claudia, Ernst, Franz, Gudrunk6 Bernd, Claudia, Ernst, Gudrun, Horst

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-58 (159)

5.3.1 Der A-Priori-Algorithmus

A Priori – Beispiel

Beispiel 5.4 cont.

Wir fordern als minimalen Support: 50%.

Anne 4 66%Bernd 2 33%Claudia 5 83%

Ernst 5 83%Franz 2 33%Gudrun 4 66%Horst 2 33%

Bernd, Franz und Horst erfüllen nicht den minimalen Support.

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-59 (160)

5.3.1 Der A-Priori-Algorithmus

A Priori – Beispiel

Beispiel 5.4 cont.

Nun bilden wir 2er FIS:

Anne, Claudia 50% (1)Anne, Ernst 50% (2)Anne, Gudrun 33% (3)Claudia, Ernst 66% (4)Claudia, Gudrun 50% (5)Ernst, Gudrun 66% (6)

Einer dieser 6 Kandidaten erfüllt den Support nicht.

Page 21: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-60 (161)

5.3.1 Der A-Priori-Algorithmus

A Priori – Beispiel

Beispiel 5.4 cont.

3er Kandidaten:

1+4 Anne, Claudia, Ernst ?%1+5 Anne, Claudia, Gudrun ?%2+6 Anne, Ernst, Gudrun ?%4+5 Claudia, Ernst, Gudrun ?%

Die beiden mittleren Kandidaten können KEINE FIS sein, daAnne/Gudrun kein 2er FIS ist (Monotonie).Unser Kandidat ACE erfüllt den Support nicht, CEG erfüllt mit 50%den geforderten Support.Vierer-Kandidaten kann es nicht geben, da wir nur ein 3er FIS haben.

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-61 (162)

5.3.1 Der A-Priori-Algorithmus

A Priori – Erzeugen der Regeln

I Finden von Regeln der Form A→ (X \A) mit A⊂ X und A 6= /0I Beispiel: X = {a,b,c,d}, (a,b)→ (c,d)

I Regel muss minimaler Konfidenz entsprechen.

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-62 (163)

5.3.1 Der A-Priori-Algorithmus

A Priori – Vor-/Nachteile

Vorteil Es handelt sich um Mengenoperationen, also: einfacheOperationen.

Nachteil bei großen Datenmengen schlechtes Laufzeitverhalten

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-63 (164)

5.3.1 Der A-Priori-Algorithmus

A Priori

Beispiel 5.5 (A priori)

Betrachten einzigen 3er Kandidaten: {Claudia, Ernst, Gudrun}.Berechnen Konfidenz nur für eine Regelvariante:

Claudia, Ernst→ Gudrun

conf(A→ B) = P(B|A) = supp(A∪B)supp(A)

Also:

conf(Claudia, Ernst→ Gudrun) =5066

= 0,75

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-64 (165)

5.3.1 Der A-Priori-Algorithmus

A Priori

Beispiel 5.6 (A priori)

Seien folgende Frequent Itemsets der Länge 3 bereits berechnet:

{a,b,c},{a,b,d},{a,c,d},{a,c,e},{b,c,d}

Daraus lassen sich folgende 4er-Kandidaten erzeugen (Join):

{a,b,c,d} (1+2) {a,c,d ,e} (3+4) {a,b,c,e} (1+4)

Pruning: {a,c,d ,e} und {a,b,c,e} fallen weg,denn {c,d ,e} bzw. {b,c,e} sind keine 3-Frequent-Itemsets.

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-65 (166)

5.3.2 Modifikationen des A-Priori-Algorithmus

Modifikationen des A-Priori-Algorithmus

Hierarchische Assoziationsregeln

I neue Begriffe einfach als Items aufnehmen

I Support eines Oberbegriffs = Support des Itemsets seinerKomponenten

Quantitative Assoziationsregeln→ Intervalle als Items.

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-66 (167)

5.3.2 Modifikationen des A-Priori-Algorithmus

Erzeugung von temporalen Assoziationsregeln

5 Phasen:

1. Sortierphase: Kundensequenzen

2. Generierungsphase: Hier werden die häufigen Itemmengengesucht.

3. Transformationsphase: Die Sequenzen werden durch die in ihnenenthaltenen häufigen Itemmengen ersetzt.

4. Sequenzphase: Mit Hilfe der häufigen Itemmengen werden diegewünschten Sequenzen ermittelt. Der Ablauf ist wie beimapriori-Algorithmus.

5. Maximalphase: Aus der Menge der generierten Itemmengenwerden die maximalen Sequenzen ermittelt.

5 Methoden und Verfahren Wissensextraktion

5.3 Verfahren zur Assoziationsanalyse Folie 5-67 (168)

5.3.2 Modifikationen des A-Priori-Algorithmus

Aufgaben

Aufgabe 5.4 (Frequent Itemsets)Seien diese Einkäufe gegeben:

ID gekaufte Artikelt1 Brot, Saft, Cola, Biert2 Saft, Cola, Weint3 Brot, Saft, Wassert4 Cola, Bier, Saftt5 Brot, Saft, Cola, Bier, Weint6 Wasser

Ergänzen Sie zunächst für diegegebenen Assoziationsregelnfolgende Tabelle:

Regel Support KonfidenzSaft→ ColaCola→ SaftCola→ BierBier→ Cola

Finden Sie dann alle Frequent Itemsets mit einem minimalen Supportvon 0,4.

Page 22: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.4 Lineare Regression Folie 5-68 (169)

Lineare Regression

Eine Regressionsfunktion beschreibt den Trend bzw. dendurchschnittlichen Zusammenhang zwischen metrischen Attributen.

error = ∑(yi − yi)2→min

5 Methoden und Verfahren Wissensextraktion

5.4 Lineare Regression Folie 5-69 (170)

Lineare Regression

Gegeben:I Attributraum X , Zielwertraum Y

I Beispielmenge E = X ×Y

Gesucht:I Zusammenhang y = f (a,x), wobei a = [a0, . . . ,an−1] =

Parametersatz der Funktion im n-dimensionalen Raum

Lösungsansatz:I error = ∑(yi − yi)

2→min.

5 Methoden und Verfahren Wissensextraktion

5.4 Lineare Regression Folie 5-70 (171)

Lineare Regression

Abb. 23: Beispiel Regression

5 Methoden und Verfahren Wissensextraktion

5.4 Lineare Regression Folie 5-71 (172)

Aufgaben

Aufgabe 5.5 (Ausfuhränderung)

Berechnen Sie aus den nachfolgend gegebenen Daten diedurchschnittliche jährliche Änderung der Ausfuhr der BRD für diePeriode 1980/81. Folgende Entwicklung der Ausfuhr der BRD (jeweilsgegenüber dem Vorjahr) wurde beobachtet:

Periode 19.. 73/74 74/75 75/76 76/77 77/78 78/79 79/80Ausfuhränderung +29 % -4 % +16 % +7 % +4 % +10 % +11 %

5 Methoden und Verfahren Wissensextraktion

5.5 Überwachte und selbstorganisierende unüberwachte neuronale Netze Folie 5-72 (173)

Überwachte und unüberwachte neuronale Netze

Neuronale Netze werden im Data Mining sehr häufig eingesetzt. Fürtiefergehende Informationen sei hier auf die Vorlesungsreihe„Neuronale Netze“ sowie die einschlägige Literatur verwiesen.

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-73 (174)

Verfahren zur Clusterbildung

Wir befassen uns nun mit Verfahren, die Objekte zu geeignetenMengen (Clustern) zusammenfassen.

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-74 (175)

5.6.1 Partitionierendes Clustering

Partitionierendes Clustering

I Beliebige Anfangspartitionierung→ k ClusterI Darstellung durch z.B. Medoid bzw. CentroidI Iterative Neuzuordnung der Objekte zu Clustern

I Neuberechnung des CentroidsI Neuzordnung jedes Objekts zum nächstgelegenem Centroid

I Ende, falls kein Objekt einem anderen Cluster zugeordnet wird

Partitionierende Clusterverfahren teilen die Eingabedaten indisjunkte Cluster ein, so dass gilt:

I Jeder Cluster besteht aus mindestens einem Objekt.

I Jedes Objekt ist höchstens in einem Cluster enthalten.

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-75 (176)

5.6.1 Partitionierendes Clustering

Algorithmus

1. Erzeuge (zufällig) k Anfangscluster Ci . Alle Objekte x aus denEingabedaten werden (zufällig) einem der Cluster zugeordnet.

2. Bestimme die Mittelpunkte x1, x2, . . . , xk der Cluster.

3. Für alle x aus den Eingabedaten: Weise x demjenigen Cluster Ci

zu, von dessen Mittelpunkt xi es am wenigsten entfernt ist.

4. Gehe zu 2, falls mindestens ein x einem anderen Clusterzugewiesen wurde.

Page 23: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-76 (177)

5.6.1 Partitionierendes Clustering

k-Means

Initiale Cluster Centroide berechnen

X

X

X

neue CentroideNeuordnung und

X

X

X

x

x

x

neue CentroideNeuordnung und

X

X

X

Neuordnung undneue Centroide

X

X

X

Abb. 24: Clustering mit k-Means

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-77 (178)

5.6.1 Partitionierendes Clustering

k-Means

Vorteile von k-MeansI Anzahl der Iterationen vergleichsweise klein.I Einfache Implementierung, deswegen ist es ein

populäres Clusteringverfahren.

Nachteile von k-MeansI Anfällig bzgl. Rauschen und Ausreißern, da alle

Objekte in die Berechnung des Centroideneingehen.

I Gute initiale Cluster sind oft schwer zu bestimmen.I Ergebnis und Laufzeit sind abhängig von der

initialen Zerlegung.

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-78 (179)

5.6.1 Partitionierendes Clustering

k-Means – Beispiel

0 1 2 3 4 5 6 7 8 90

1

2

3

4

5

6

7

8

9

Daten

Abb. 25: k-Means – Ausgangssituation

Ziel: 3 Cluster. Startcluster (1, 5), (2, 6), (3, 6). Euklidische Distanz.

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-79 (180)

5.6.1 Partitionierendes Clustering

k-Means – Beispiel

0 1 2 3 4 5 6 7 8 90

1

2

3

4

5

6

7

8

9

NEUDatenALT

0 1 2 3 4 5 6 7 8 90

1

2

3

4

5

6

7

8

9

NEUDatenALT

Abb. 26: k-Means – 1./2. Schritt

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-80 (181)

5.6.1 Partitionierendes Clustering

k-Means – Beispiel

0 1 2 3 4 5 6 7 8 90

1

2

3

4

5

6

7

8

9

NEUDatenALT

0 1 2 3 4 5 6 7 8 90

1

2

3

4

5

6

7

8

9

NEUDatenALT

Abb. 27: k-Means – 3./4. Schritt

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-81 (182)

5.6.1 Partitionierendes Clustering

k-Means – Beispiel

0 1 2 3 4 5 6 7 8 90

1

2

3

4

5

6

7

8

9

NEUDatenALT

0 1 2 3 4 5 6 7 8 90

1

2

3

4

5

6

7

8

9

NEUDatenALT

Abb. 28: k-Means – 5./6. Schritt

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-82 (183)

5.6.1 Partitionierendes Clustering

k-Medoid

I nicht mit Centroid, sondern MedoidI Wiederholtes Tauschen eines Medoids mit einem Nichtmedoid,

wobei sich die Qualität des Clusterns verbessern muss.

I Sofortige Neuordnung

I Variante 1: Partitioning Around Medoids (PAM) (relativvollständige Suche)

I Variante 2: Clustering Large Applications based onRANdomized Search (CLARANS) (stark eingeschränkte Suche)

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-83 (184)

5.6.1 Partitionierendes Clustering

Aufgaben

Aufgabe 5.6 (k-Means)

Gegeben seien die folgenden (zweidimensionalen) Datensätze:

x 3 6 8 1 2 2 6 6 7 7 8 8y 5 2 3 5 4 6 1 8 3 6 1 7

Bilden Sie mittels k-Means 3 Cluster. Als Anfangszentren verwendenSie die ersten drei Datentupel.

Aufgabe 5.7 (k-Means)

Erläutern Sie, wie man bei dem k-Means-Verfahren den Centroidberechnet.

Page 24: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-84 (185)

5.6.2 Hierarchisches Clustering

Hierarchisches Clustering

I Ziel: Aufbau einer Hierarchie von Clustern

I Verschmelzen von Clustern mit minimaler Distanz (größterÄhnlichkeit)

I Darstellung: Baumstruktur (Dendrogramm)

Ein Dendrogramm ist ein Baum, dessen Knoten jeweils einen Clusterrepräsentieren und der folgende Eigenschaften besitzt:

I Die Wurzel repräsentiert die gesamte Datenmenge.

I Ein innerer Knoten repräsentiert die Vereinigung aller Objekte,die in den darunterliegenden Teilbäumen enthalten sind.

I Die Blätter repräsentieren einzelne Objekte.

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-85 (186)

5.6.2 Hierarchisches Clustering

Hierarchisches Clustering

Abb. 29: Hierarchisches Clustering

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-86 (187)

5.6.2 Hierarchisches Clustering

Hierarchisches Clustering

Man unterscheidet zwei Verfahren:

Agglomeratives Clustering

Divisives Clustering

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-87 (188)

5.6.2 Hierarchisches Clustering

Agglomeratives Clustering

I Beginn: Jedes Objekt ist ein eigener Cluster.

I Verschmelzen von jeweils 2 ähnlichsten Clustern zu einem.

I usw. bis nur noch ein Cluster (alle Objekte) vorhanden

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-88 (189)

5.6.2 Hierarchisches Clustering

Divisives Clustering

I Beginn: Alle Objekte bilden ein Cluster.

I Teilen des / der Cluster in jeweils 2 oder mehrere Teil-Cluster

I usw. bis jedes Objekt ein eigener Cluster ist

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-89 (190)

5.6.2 Hierarchisches Clustering

Hierarchisches Clustern

Nachteil beider Techniken einmal gebildete Cluster (früheVerschmelzungs- oder Aufteilungsentscheidungen)können nicht wieder aufgelöst werden

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-90 (191)

5.6.3 Erwartungsmaximierung

Erwartungsmaximierung

I Objekte werden nicht bestimmten Clustern eindeutig zugeordnet

I Objekte können zu mehreren Clustern gehören

I jeweils mit einer bestimmten WahrscheinlichkeitI Kombination von k Gaußverteilungen

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-91 (192)

5.6.3 Erwartungsmaximierung

Erwartungsmaximierung

Man beginnt also mit k zufällig gewählten Gauß-Verteilungen. Nunberechnet man die Wahrscheinlichkeiten, mit denen

I ein Punkt x (Objekt) aus einer

I der k Gaußverteilungen Ci(i = 1, . . . ,k) entstanden ist.

P(x |Ci) =1√

(2π)k |∑Ci|×e−

12 (x−µCi )

T (∑Ci)−1(x−µCi )

Dabei ist:

I k die Anzahl der ClusterI ∑Ci

die Kovarianzmatrix für die Punkte im Cluster Ci

I µCi der Vektor des Mittelpunkts des Clusters i

Page 25: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-92 (193)

5.6.3 Erwartungsmaximierung

Erwartungsmaximierung

Jetzt berechnet man die Gesamt-Wahrscheinlichkeitsdichte für x :

P(x) =k

∑i=1

Wi ×P(x |Ci)

I Wi . . . Anzahl der Objekte im Cluster Ci an Gesamtzahl (relativeHäufigkeit)

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-93 (194)

5.6.3 Erwartungsmaximierung

Erwartungsmaximierung

Die Wahrscheinlichkeit, mit der ein bestimmtes Objekt x zu einemCluster Ci gehört, ist (Satz von Bayes):

P(Ci |x) = Wi ×P(x |Ci)

P(x)

Gesamt-Wahrscheinlichkeitsdichte :

E = ∑x∈D

log(P(x))

E soll maximiert werden.

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-94 (195)

5.6.3 Erwartungsmaximierung

Iterativer Algorithmus

1. Initiale Belegung der Parameter

2. Berechne P(xi),P(xj |Ci) und P(Ci |xj)

3. Berechne neue Mittelpunkte der k Cluster

4. Gehe zu 2.

Ende, falls E nicht weiter verbessert werden kann.

5 Methoden und Verfahren Wissensextraktion

5.6 Verfahren zur Clusterbildung Folie 5-95 (196)

5.6.4 Dichtebasiertes Clustering

Dichtebasiertes Clustering

I Cluster als Menge von Objekten, die in einer bestimmten Dichtezueinander stehen

I getrennt durch Regionen geringerer Dichte

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-96 (197)

Naive Bayes

I Ziel: Vorhersage der wahrscheinlichsten Klasse

I Es findet kein Training eines Modells statt.

I Die Vorhersage wird direkt aus den Trainingsdaten berechnet.

I Grundannahme: Alle Attribute sind voneinander unabhängig.

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-97 (198)

5.7.1 Bayessche Formel

Bedingte Wahrscheinlichkeit

Sei Y ein Ereignis mit P(Y )> 0. Dann heißt

P(X |Y ) =P(X ∧Y )

P(Y )

bedingte Wahrscheinlichkeit von X unter der Bedingung Y . FallsP(Y ) = 0, so ist die bedingte Wahrscheinlichkeit nicht definiert.

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-98 (199)

5.7.1 Bayessche Formel

Die Bayessche FormelStellt man die Formel für die bedingte Wahrscheinlichkeit um, so erhältman:

P(X ∧Y ) = P(Y )∗P(X |Y )

Betrachtet man die bedingte Wahrscheinlichkeit von Y bezüglich X , soergibt sich analog:

P(Y ∧X) = P(X)∗P(Y |X)

Da das logische Und kommutativ ist, gilt:

P(Y )∗P(X |Y ) = P(X)∗P(Y |X)

Somit erhält man die Bayessche Formel:

P(X |Y ) =P(Y |X)∗P(X)

P(Y )

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-99 (200)

5.7.2 Berechnungsgrundlagen

Naive Bayes – Berechnungsgrundlagen

Sei A = {a1, . . . ,an} eine Menge von Attributwerten, z.B.{sunny ,hot}. Wir möchten berechnen, ob (nicht) gespielt wird(yes/no), wenn es sunny und hot ist.Mit der Bayesschen Formel erhalten wir:

P(yes|[sunny ,hot]) =P([sunny ,hot]|yes)∗P(yes)

P([sunny ,hot])

Analog berechnen wir

P(no|[sunny ,hot]) =P([sunny ,hot]|no)∗P(no)

P([sunny ,hot])

Wir sagen dann yes vorher, wenn P(yes|[sunny ,hot]) größer alsP(no|[sunny ,hot]) ist, sonst no.

Page 26: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-100 (201)

5.7.2 Berechnungsgrundlagen

Naive Bayes – Berechnungsgrundlagen

In beiden Formeln im Nenner der gleiche Term: P([sunny ,hot]).Da wir nur bezüglich der Größe vergleichen, können wir diesenweglassen.Wir reden deshalb nicht mehr von P, sondern von Likelihood L.

L(yes|[sunny ,hot]) = P([sunny ,hot]|yes)∗P(yes)L(no|[sunny ,hot]) = P([sunny ,hot]|no)∗P(no)

Der Naive-Bayes-Algorithmus geht von der Unabhängigkeit derAttribute aus und ersetzt:

P([sunny ,hot]|yes) = P(sunny |yes)∗P(hot|yes)

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-101 (202)

5.7.2 Berechnungsgrundlagen

Naive Bayes – Berechnungsgrundlagen

Nun nochmal in der Übersicht:

Relative Häufigkeit h[a,k ] des Attributs a in der Klasse k

Likelihood L[k ](A) =n∏i=1

h[ai ,k ] ×h[k ]

Wahrscheinlichkeit P[kj ](A) =L[kj ](A)

∑i

L[ki ](A)

Vorhersage km : Pm(A) = maxj(P[kj ](A))

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-102 (203)

5.7.3 Beispiel Wetterdaten

Beispiel Wetterdaten

Tag outlook temperature humidity windy play1 sunny hot high false no2 sunny hot high true no3 overcast hot high false yes4 rainy mild high false yes5 rainy cool normal false yes6 rainy cool normal true no7 overcast cool normal true yes8 sunny mild high false no9 sunny cool normal false yes10 rainy mild normal false yes11 sunny mild normal true yes12 overcast mild high true yes13 overcast hot normal false yes14 rainy mild high true no

Tabelle 10: Wetter-Daten

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-103 (204)

5.7.3 Beispiel Wetterdaten

Beispiel Wetterdaten

Wird an einem Tag mit folgenden Eigenschaften gespielt?

outlook = sunnytemperature = hothumidity = normal

windy = true

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-104 (205)

5.7.4 Naive-Bayes-Algorithmus

Naive Bayes Algorithmus

Schritt 1: Ermittlung der relativen Häufigkeiten

h[sunny ,yes] =29

weil

I es 9 Tage gibt, an denen gespielt wurde (play=yes), und

I an 2 dieser Tage outlook=sunny war.

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-105 (206)

5.7.4 Naive-Bayes-Algorithmus

Naive Bayes Algorithmus

playyes no

sunny 2/9 3/5outlook overcast 4/9 0/5

rainy 3/9 2/5hot 2/9 2/5

temperature mild 4/9 2/5cool 3/9 1/5high 3/9 4/5humiditynormal 6/9 1/5true 3/9 3/5windyfalse 6/9 2/5

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-106 (207)

5.7.4 Naive-Bayes-Algorithmus

Naive Bayes Algorithmus

Schritt 2: Berechnung der Likelihoods

L[yes](sunny ,hot,normal, true)=h[sunny ,yes]*h[hot,yes]*h[normal,yes]*h[true,yes]*h[yes]= 2/9 * 2/9 * 6/9 * 3/9 * 9/14≈ 0,007055

L[no](sunny ,hot,normal, true)= h[sunny ,no] * h[hot,no] * h[normal,no] * h[true,no] * h[no]= 3/5 * 2/5 * 1/5 * 3/5 * 5/14≈ 0,010286

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-107 (208)

5.7.4 Naive-Bayes-Algorithmus

Naive Bayes Algorithmus

Schritt 3: Berechnung der Wahrscheinlichkeiten (wir kürzensunny,hot,normal,true mit A ab).

P[yes](A)=L[yes](A)/(L[yes](A)+ L[no](A) )=0,007055/(0,007055+0,010286)≈ 0,406835

P[no](A) = L[no](A) /(L[yes](A)+ L[no](A) )=0,010286/(0,007055+0,010286)≈ 0,593165

Schritt 4: Vorhersage

(P[yes](A) = 40,68%)< (P[no](A) = 59,31%) ⇒ NO

Page 27: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-108 (209)

5.7.5 Aufgaben

AufgabenAufgabe 5.8 (Naive Bayes)

I Alternative: Gibt es in der Nähe ein geeignetes anderesRestaurant? (ja/nein)

I Fr/Sa: Ist Freitag oder Samstag? (ja/nein)

I Hungrig: Bin ich hungrig? (ja/nein)

I Gäste: Wieviele Leute sind im Restaurant? (keine/einige/voll)

I Reservierung: Habe ich reserviert? (ja/nein)

I Typ: Um welche Art von Restaurant handelt es sich?(Franz./Chin./Ital./Burger)

I Wartezeit: Welche voraussichtliche Wartezeit wird vomRestaurant geschätzt? (0-10/10-30/30-60/>60)

I Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind?(ja/nein)

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-109 (210)

5.7.5 Aufgaben

Aufgaben

Aufgabe 5.8 cont.

Berechnen Sie mit Naive Bayes, ob wir in folgenden Fällen wartenoder nicht.

Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Wartenja nein ja einige nein Franz. 30-60ja ja ja voll ja Chin. 10-30

nein nein nein keine nein Burger 0-10

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-110 (211)

5.7.5 Aufgaben

AufgabenAufgabe 5.8 cont.

Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Wartenja nein ja einige ja Franz. 0-10 jaja nein ja voll nein Chin. 30-60 nein

nein nein nein einige nein Burger 0-10 jaja ja ja voll nein Chin. 10-30 jaja ja nein voll ja Franz. >60 nein

nein nein ja einige ja Ital. 0-10 janein nein nein keine nein Burger 0-10 neinnein nein ja einige ja Chin. 0-10 janein ja nein voll nein Burger >60 neinja ja ja voll ja Ital. 10-30 nein

nein nein nein keine nein Chin. 0-10 neinja ja ja voll nein Burger 30-60 ja

Tabelle 11: Restaurant-Daten

5 Methoden und Verfahren Wissensextraktion

5.7 Naive Bayes Folie 5-111 (212)

5.7.5 Aufgaben

Aufgaben

Aufgabe 5.9 (Naive Bayes)

Seien folgende Datensätze gegeben (a=angest, s=selbst, v=verh,l=ledig, M=Miete, E=Eigentum)

Beruf a a a a s s s sFam.st. v l v v l l v vKinder j n n j j n j n

Wohnung M E M E E M E E

Wo lebt ein lediger Angestellter mit Kindern?

6 Datenvorbereitung Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis

Einführung

Data Mining – Grundlagen

Anwendungsklassen

Wissensrepräsentation

Methoden und Verfahren

Datenvorbereitung

Bewertung

6 Datenvorbereitung Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis – Kapitel 6

DatenvorbereitungMotivationArten der DatenvorbereitungDatenvorbereitung – Beispiel

6 Datenvorbereitung Wissensextraktion

Folie 6-1 (215)

Datenvorbereitung

Experience is something you don’t get until just after you need it.Olivier’s Law

Unter Vorbereitung fassen wir die 3 ersten Teilprozesse desKDD-Prozesses zusammen.

6 Datenvorbereitung Wissensextraktion

6.1 Motivation Folie 6-2 (216)

Motivation

Daten müssen i.allg. vorbereitet werden.

I Wertebereiche und AusreißerI Fehlende, ungenaue, falsche, widersprüchliche Werte

Auch Nicht-Wissen kann Information sein!I Bedeutung der DatenI Enthält das falsche / fehlende Datum eine Info (bewusste

Nichtantwort)?I Welchen Einfluss hat der fehlende Wert auf das Resultat?

Page 28: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

6 Datenvorbereitung Wissensextraktion

6.1 Motivation Folie 6-3 (217)

Motivation

I DimensionsreduktionI Viele Attribute→ hochdimensionale ProblemeI Visuelle Wahrnehmungsfähigkeit des Menschen beschränktI Hohe Dimension→ hohe Rechenzeit

Reduktion der hohen Dimension durch:I Ausblenden einiger AttributeI Zusammenfassung von abhängigen Komponenten

I Datentransformation, Skalierung etc.

6 Datenvorbereitung Wissensextraktion

6.1 Motivation Folie 6-4 (218)

Datenvorbereitung und DM

I Datenvorbereitung spielt wichtige RolleI für LaufzeitverhaltenI für Qualität der Resultate

I etwa 80% des Gesamtaufwands

6 Datenvorbereitung Wissensextraktion

6.1 Motivation Folie 6-5 (219)

Garbage in – garbage out

I Analyseverfahren versagen auf schlechten Daten.

I Deshalb ist die Datenvorbereitung für den Erfolg wichtig.

I GIGO: Garbage in, garbage out.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-6 (220)

Arten der Datenvorbereitung

Folgende Klassen der Vorbereitung unterscheidet man:

Datenselektion und -integration Daten auswählen undzusammenfügen

Datensäuberung Daten werden bereinigt.

Datenreduktion Daten werden reduziert, z.B. bezüglich derDimension.

Datentransformation Daten werden umgewandelt, um so adäquateDarstellungsformen (in Abhängigkeit vom jeweiligenVerfahren) für die Daten zu bekommen.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-7 (221)

6.2.1 Datenselektion und -integration

Datenselektion und -integration

Motivation: Gewünscht ist eine filialübergreifende Datenanalyse.

I Jede Filiale hat unter Umständen ihre eigene Datenbank.

I Es ist eine unterschiedliche Semantik und Syntax der Attributemöglich.

Die Datenintegration fügt Daten mehrerer Datensätzeunterschiedlicher Quellen (verschiedene Datenbanken) zusammen.Ergebnis sollte ein schlüssiger Datensatz sein.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-8 (222)

6.2.1 Datenselektion und -integration

Probleme

Entitätenidentifikationsproblem Welche Merkmale besitzen dieselbeSemantik?

Redundanzen z.B. Name/name

Widersprüche z.B. unterschiedliche Adressen für die gleiche Person

Datenwertkonflikte z.B. Entfernung in Meilen und Kilometern

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-9 (223)

6.2.2 Datensäuberung

Datensäuberung

I Fehlende Daten

I Verrauschte Daten

I Falsche Daten

I Inkonsistente Daten

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-10 (224)

6.2.2 Datensäuberung

Fehlende Daten

I Attribut ignorieren

I Fehlende Werte manuell einfügen

I Globale Konstante zum Ausfüllen des fehlenden Werts (z.B.:unbekannt, minus unendlich)

I Durchschnittswert aller Einträge derselben Klasse

I Wahrscheinlichsten Wert eintragen (anhand statistischerMethoden ermitteln)

I Datensatz als fehlerhaft kennzeichnen und vonWeiterverarbeitung ausnehmen

Page 29: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-11 (225)

6.2.2 Datensäuberung

Fehlende Daten

Achtung:I Einfügen von Werten⇒ Veränderung des Datenbestands

I Qualität der Daten evtl. verändert.

I Semantik der Daten kann dadurch verfälscht werden.

I Ignorieren/Weglassen verfälscht die Daten bezüglich derWahrscheinlichkeitsverteilung der Attributwerte.

I Ziel, dass jegliche Veränderung unseres Datenbestandsinformationsneutral sein sollte, verletzt.

I Allerdings haben wir bei fehlenden Daten keine Alternative.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-12 (226)

6.2.2 Datensäuberung

Verrauschte Daten

I Klasseneinteilung (binning): Man gruppiert die Daten und ersetztsie durch Mittelwerte oder Grenzwerte.

I Verbundbildung (clustering): Hier werden die Ausreißer durchVerbundbildung erkannt.

I Kombinierte Maschine/Mensch-Untersuchung (combinedcomputer and human inspection):

I Computer erstellt Liste (anscheinend) befremdlicher Werte.I Mensch filtert die Ausreißer aufgrund von Erfahrungswerten

heraus.

I Regression: Man beschreibt die Daten als mathematischeFunktion. Dann ersetzt man die realen Datenwerte durch dieberechneten Funktionswerte der gefundenen Funktion.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-13 (227)

6.2.2 Datensäuberung

Inkonsistente und falsche Daten

Beispiel 6.1 (Inkonsistente Daten)

Seien die folgenden Tabellen gegeben:

KundendatenKu-Nr. Name Ort1 Meier Wismar2 Schulze Schwerin3 Lehmann Rostock

BestellungenBestell-Nr. Ku-Nr.1 23 12 14 4

In der Bestellungen-Tabelle wird auf den Kunden 4 verwiesen, den esaber gar nicht gibt.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-14 (228)

6.2.2 Datensäuberung

Inkonsistente und falsche Daten

Folgende Korrekturen sind möglich:

I Zuhilfenahme anderer Datensätze

I Künstliches Anlegen eines fehlenden Schlüsselattributs

I Falls nicht möglich: betreffenden Datensatz löschen oder alsfehlerhaft markieren.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-15 (229)

6.2.2 Datensäuberung

Fehlerhafte, unzulässige Werte

Beispiel 6.2 (Fehlerhafte, unzulässige Werte)

I Verletzter Wertebereich: Wenn auf einstellige natürliche Zahlenbeschränkt, dann dürfen keine Zahlen x < 0 oder x > 9auftauchen.

I Verletzte Plausibilitätsbeziehungen: Sonst umsatzschwacherKunde hat plötzlich sehr hohen Jahresumsatz.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-16 (230)

6.2.3 Datenreduktion

Datenreduktion

Problem: Datensätze sehr umfangreichStrategien: Folgende Techniken können angewendet werden.

1. Aggregation

2. Dimensionsreduktion

3. Datenkompression

4. Numerische Datenreduktion

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-17 (231)

6.2.3 Datenreduktion

Aggregation

Unter Aggregation (auch Verdichtung) versteht man dasZusammenfassen von Fakten zu einem Fakt oder das Generalisierender Daten. So kann man z.B. Daten durch ihre Mittelwerte ersetzenoder Teilwerte zu einer Gesamtsumme zusammenfassen.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-18 (232)

6.2.3 Datenreduktion

Dimensionsreduktion

Bei der Dimensionsreduktion werden irrelevante Daten (Attribute)vernachlässigt und relevante Daten einbezogen.

I Schrittweise Vorwärtsauswahl: Gute Attribute werden schrittweisein die Zielmenge eingegliedert.

I Schrittweise Rückwärtseliminierung: Ausgehend von derGesamtmenge werden schlechte Attribute schrittweise eliminiert.

I Kombination aus beiden

Page 30: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-19 (233)

6.2.3 Datenreduktion

Datenkompression

Die Daten werden entweder transformiert oder kodiert, um eineReduktion der Datenmenge und damit eine Reduktion der Komplexitätdes Data Mining zu erhalten.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-20 (234)

6.2.3 Datenreduktion

Numerische Datenreduktion1. mit Hilfe von Stichproben

Zufällige Stichprobe zufällige AuswahlRepräsentative Stichprobe zufällige, aber repräsentative

AuswahlGeschichtete Stichprobe zufällige Auswahl, wichtige Attribute

haben WertInkrementelle Stichproben schrittweise VerfeinerungAverage Sampling Daten teilen und separat analysieren, dann

Resultate mittelnSelektive Stichprobe Stichprobe gezieltWindowing inkrementell, Erweiterung um falsch bewertete

DatensätzeClustergestützte Stichprobe Cluster von ähnlichen Daten, davon

jeweils einer

2. Lineare Regression

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-21 (235)

6.2.4 Datentransformation

Datentransformation

Anpassung:

1. von unterschiedlichen Datenstrukturen

2. der Datentypen

3. von Konvertierungen oder Kodierungen

4. von Zeichenketten

5. von Datumsangaben

6. von Maßeinheiten und Skalierungen

Weitere Transformationen können in Betracht kommen:

1. Kombination oder Separierung von Attributen

2. ggf. Berechnung abgeleiteter Werte

3. Datenaggregation

4. Datenglättung

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-22 (236)

6.2.4 Datentransformation

Anpassung unterschiedlicher Datenstrukturen

Innerhalb der Datenbank kann es Attribute mit nicht kompatiblenDatenstrukturen geben. Diese müssen gegebenenfalls angepasstwerden.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-23 (237)

6.2.4 Datentransformation

Anpassung der Datentypen

Betrachtet man die 2 als Datum, so stellt sich die Frage:

I Ist diese 2 vom Datentyp Char oder Integer?

I Sollte eine Umwandlung stattfinden?

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-24 (238)

6.2.4 Datentransformation

Anpassung von Konvertierungen oder Kodierungen

Datenquelle und Zielmenge benutzen evtl. unterschiedlicheKodierungen.Z.B. Binärkodierung: aus Attributen mit einer bestimmten AnzahlMerkmalsausprägungen⇒ Menge binärer Attribute.Diskretisierung wird angewendet, um den Wertebereich vonquantitativen Attributausprägungen in endlich vielen Teilmengenzusammenzufassen.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-25 (239)

6.2.4 Datentransformation

Anpassung von Zeichenketten

Kann das Data-Mining-Programm mit Umlauten, Groß- undKleinschreibung sowie Leerzeichen in den Datensätzen umgehen,oder sollte hier eine Umwandlung erfolgen?

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-26 (240)

6.2.4 Datentransformation

Anpassung von Datumsangaben

Datumsangaben sind oft unterschiedlich kodiert. Es können auchDaten aus unterschiedlichen Zeitzonen vorhanden sein.

Page 31: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-27 (241)

6.2.4 Datentransformation

Anpassung von Maßeinheiten und Skalierungen

I nationale Standards bei Maßeinheiten→ Anpassungenerforderlich.

I Inch; Zentimeter; Yard; Meter.I Normalisierung: Transformation aller Merkmalsausprägungen

auf die Werte einer stetigen, numerischen Skala (z.B. [0,1]):xneu =

x−min(xi)max(xi)−min(xi)

I Zunächst den Minimalwert subtrahieren (Minimum wird 0)I Alle Werte durch den ermittelten Maximalwert dividieren

I Alternativ: statistischer Mittelwert und Standardabweichung derAttributwerteSubtrahieren den Mittelwert von jedem Wert, anschließend dasErgebnis durch die Standardabweichung dividieren.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-28 (242)

6.2.4 Datentransformation

Kombination oder Separierung von Attributen

I Evtl. nötig: verschiedene Attribute zu einem neuenzusammenzufügen

I Tag; Monat; Jahr→ Datum.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-29 (243)

6.2.4 Datentransformation

Berechnung abgeleiteter Werte

I Berechnen abgeleiteter Werte→ ganz neue Attribute

I Einnahmen - Ausgaben→ Gewinn.

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-30 (244)

6.2.4 Datentransformation

Datenaggregation

I Oft: Daten verfügbar in einer zu feinen Aggregationsebene.

I Bspl.: Einwohnerzahl von Berlin gesucht, aber nurEinwohnerzahlen der einzelnen Stadtteile verfügbar

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-31 (245)

6.2.4 Datentransformation

Datenglättung

Die Hauptidee der Datenglättung (s. auch verrauschte Daten) ist, dassjeder (numerische) Wert aus der gegebenen Datenmenge durch dieGleichung

Wert(i) = Mittelwert(i)+Rauschen

dargestellt werden kann, wobei i der i-ten Instanz entspricht.Ziel: Reduzierte WertemengeMan kennt vier Techniken, mit denen Daten geglättet werden können:

I Eingruppierung (binning)

I Clustering

I kombinierte menschliche und maschinelle Kontrolle

I Regression

6 Datenvorbereitung Wissensextraktion

6.2 Arten der Datenvorbereitung Folie 6-32 (246)

6.2.4 Datentransformation

Fazit

Datentransformation dient dazu, Daten zwischen verschiedenenFormen zu transformieren. Es können auch bestehende Attribute inneue Attribute aufgeteilt oder Daten zwischen verschiedenen Ebenenaggregiert werden, um eine geänderte Sicht auf die Daten zu erhalten.

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-33 (247)

Datenvorbereitung – BeispielPers.nr.

Wohn-ort

Ge-schlecht

Alter Jahres-gehalt

Betriebs-zugehörigkeit

Position Bildungs-abschluss

1 23966 m 45 32 10 arb Lehre2 23966 w 57 35000 25 verw Bachelor3 23966 m 52 40 5 manager Master4 23966 m 28 27 6 arb Lehre5 23966 male 57 45 25 manager Master6 23966 fem 26 27 96 arb Lehre7 23966 m 39 39 4 manager Master8 23966 m 38 32 3 arb Lehre9 23966 m 42 31 15 arb ohne10 23966 w 37 30 10 verw Abi11 23966 m 45 32 8 arb12 23966 m 37 513 23966 w 35 30 15 verw Abi

Tabelle 12: Ausgangsdaten

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-34 (248)

Datenvorbereitung – Beispiel

Was fällt uns als erstes auf?

I Das Attribut Wohnort enthält keine nützliche Information.

I Das Geschlecht ist mal als m/w angegeben, mal als male/fem.

I Beim Jahresgehalt ist in Datensatz 2 wohl das Gehalt nicht inTausend angegeben, sondern absolut.

I Im Datensatz 12 fehlen etliche Werte. Diesen sollten wir folglichweglassen.

I Im Datensatz 6 steht bei Betriebszugehörigkeit eine 96. 2Interpretationen: 96=1996 oder Monate. Wir entscheiden uns fürdie Monate.

I In Datensatz 11 fehlt der Bildungsabschluss. Das können wir z.B.korrigieren, indem wir dort den häufigsten Wert einsetzen, der fürdie gleiche Position (arb) vorkommt: Lehre.

Page 32: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-35 (249)

Bereinigte Daten

Pers.nr.

Ge-schlecht

Alter Jahres-gehalt

Betriebs-zugehörigkeit

Position Bildungs-abschluss

1 m 45 32 10 arb Lehre2 w 57 35 25 verw Bachelor3 m 52 40 5 manager Master4 m 28 27 6 arb Lehre5 m 57 45 25 manager Master6 w 26 27 8 arb Lehre7 m 39 39 4 manager Master8 m 38 32 3 arb Lehre9 m 42 31 15 arb ohne10 w 37 30 10 verw Abi11 m 45 32 8 arb Lehre13 w 35 30 15 verw Abi

Tabelle 13: Bereinigung der Daten

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-36 (250)

Ziel der Analyse ?

I . . . zunächst Cluster

I Personalnummer hat keine Information.

I Für das Clustern sind metrische Werte günstig.

I Also nominale Attribute einfach durch Integer-Werte kodieren.

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-37 (251)

Datenvorbereitung – Beispiel

Ge-schlecht

Alter Jahres-gehalt

Betriebs-zugehörigkeit

Position Bildungs-abschluss

0 45 32 10 0 11 57 35 25 1 30 52 40 5 2 40 28 27 6 0 10 57 45 25 2 41 26 27 8 0 10 39 39 4 2 40 38 32 3 0 10 42 31 15 0 01 37 30 10 1 20 45 32 8 0 11 35 30 15 1 2

Tabelle 14: Codierung Variante 1

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-38 (252)

Datenvorbereitung – Beispiel – 3 Cluster

Abb. 30: Clusterversuch 1

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-39 (253)

Datenvorbereitung – Beispiel normalisiert

I Alter ist dominant.

I Grund: Abstandsmaß.

I Lösung: Normalisieren aller Daten auf das Intervall [0,1].

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-40 (254)

Datenvorbereitung – Beispiel normalisiert

Ge-schlecht

Alter Jahres-gehalt

Betriebs-zugehörigkeit

Position Bildungs-abschluss

0 0,61 0,28 0,32 0 0,251 1 0,44 1 0,5 0,750 0,84 0,72 0,09 1 10 0,06 0 0,14 0 0,250 1 1 1 1 11 0 0 0,23 0 0,250 0,42 0,67 0,05 1 10 0,39 0,28 0 0 0,250 0,52 0,22 0,55 0 01 0,35 0,17 0,32 0,5 0,50 0,61 0,28 0,23 0 0,251 0,29 0,17 0,55 0,5 0,5

Tabelle 15: Codierung Variante 2

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-41 (255)

Datenvorbereitung – Beispiel - normalisiert

Abb. 31: Clusterversuch 2 – Alter

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-42 (256)

Datenvorbereitung – BeispielGute Cluster !!

Abb. 32: Clusterversuch 2 – Bildungsabschluss

Page 33: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-43 (257)

Datenvorbereitung – Beispiel

Nun als Ziel: Klassifikation.Brauchen nominale/ordinale Attribute.Wandeln metrische Attribute in ordinale / nominale um.

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-44 (258)

Datenvorbereitung – Beispiel

Ge-schlecht

Alter Jahres-gehalt

Betriebs-zugehörigkeit

Position Bildungs-abschluss

m alt gering kurz arb Lehrew alt viel lang verw Bachelorm alt viel kurz manager Masterm jung gering kurz arb Lehrem alt viel lang manager Masterw jung gering kurz arb Lehrem jung viel kurz manager Masterm jung gering kurz arb Lehrem alt gering lang arb ohnew jung gering kurz verw Abim alt gering kurz arb Lehrew jung gering lang verw Abi

Tabelle 16: Codierung Variante 3

6 Datenvorbereitung Wissensextraktion

6.3 Datenvorbereitung – Beispiel Folie 6-45 (259)

Beispiel – Entscheidungsbaum

Abb. 33: Entscheidungsbaum mit ID3

7 Bewertung Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis

Einführung

Data Mining – Grundlagen

Anwendungsklassen

Wissensrepräsentation

Methoden und Verfahren

Datenvorbereitung

Bewertung

7 Bewertung Wissensextraktion

26. Januar 2015

Inhaltsverzeichnis – Kapitel 7

BewertungInteressantheitsmaßeGütemaße und FehlerkostenTrainings- und TestmengenBewertung von Clustern

7 Bewertung Wissensextraktion

Folie 7-1 (262)

Bewertung

Negative expectations yield negative results. Positive expectationsyield negative results.

Nonreciprocal Laws of expectations.

1. Das Prinzip der minimalen Beschreibungslängen

2. Interessantheitsmaße

3. Fehlerraten und Fehlerkosten

4. Trainings- und Testmengen

7 Bewertung Wissensextraktion

Folie 7-2 (263)

Prinzip der minimalen Beschreibungslängen

Die Beschreibungslänge ist definiert als:

I Speicherplatz zur Beschreibung einer Theorie plus

I Speicherplatz zur Beschreibung der Fehler der Theorie

Dieses Konzept geht auf William of Ockham, geboren in Ockham (inSurrey, England) ca. 1285 zurück, der postulierte, dass ein Modelldesto besser sei, je einfacher es sei (Occam’s razor).

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-3 (264)

Interessantheitsmaße

Spezielle Aspekte der Bewertung von AssoziationsregelnNotwendigkeit:

I (zu) viele Regeln

I keine automatische Filterung möglich (Problembezogenheit)

Idee: Interessantheitsmaße der deskriptiven Statistik übernehmen

Page 34: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-4 (265)

Interpretation und Evaluierung von Regeln

I signifikante Merkmale der Regeln: beispielsweise Konfidenz undSupport

I Filtern von Regeln auf der Basis dieser Merkmale

I grafische Darstellungen von Regeln

I Basis der Bewertung von Regeln: Interessantheitsmaße

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-5 (266)

7.1.1 Support

Support

Der Support einer Regel A→ B ist definiert durch:

supp(A→ B) = P(A∪B).

Wir berechnen also die relative Häufigkeit, in wievielen Datensätzenunserer Datenmenge sowohl A als auch B vorkommt.

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-6 (267)

7.1.1 Support

Support

Support: Flächeninhalt der schraffierten Fläche, geteilt durch dieFläche der gesamten Menge.

Abb. 34: Support der Assoziationsregel A→ B

Problem:I Auch seltene Items können interessant sein.

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-7 (268)

7.1.2 Konfidenz

Konfidenz

conf(A→ B) = P(B|A) = supp(A→ B)supp(A)

Konfidenz: Verhältnis der schraffierten Fläche und der gestricheltschraffierten Fläche.

Abb. 35: Konfidenz der Assoziationsregel A→ B

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-8 (269)

7.1.2 Konfidenz

Konfidenz

Probleme:I Triviale Zusammenhänge

I Regeln mit geringer statistischer Korrelation erreichen manchmalhohe Konfidenz.

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-9 (270)

7.1.2 Konfidenz

Completeness

Weiteres Interessantheitsmaß : Vollständigkeit (completeness).

completeness(A→ B) = P(A∪B|B)

Abb. 36: Completeness der Assoziationsregel A→ B

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-10 (271)

7.1.2 Konfidenz

Interessantheitsmaße

Beispiel 7.1 (Interessantheismaße für Assoziationsregeln)

Seien folgende Werte gegeben: P(A) = 0,50, P(B) = 0,40,P(A∪B) = 0,35.Es ergeben sich folgende Werte:

supp(A→ B) = P(A∪B) = 0,35

conf(A→ B) = P(B|A) = supp(A→ B)supp(A)

=0,350,50

= 70%

completeness(A→ B) = P(A∪B|B) = supp(A→ B)supp(B)

=0,350,40

=78

Konfidenz der Regel ist nicht sonderlich gut, allerdings hoheCompleteness.

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-11 (272)

7.1.3 Gain-Funktion

Gain-Funktion

Unangenehme Effekte mit Support/Konfidenz:

I Regel scheitert am Support, obwohl hohe Konfidenz

I Verzicht auf Support würde Regeln mit geringem Support, aberhoher Konfidenz erlauben.

Also: Mix aus Support und Konfidenz, der obige Effekte verhindert.

Page 35: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-12 (273)

7.1.3 Gain-Funktion

Gain-Funktion

gain(A→ B) = supp(A→ B)−θ× supp(A).

I Reduktion des Supports einer Regel

I gain = 0: In jedem 1θ -ten Fall, in dem A vorkommt, kommt auch B

vor

I gain > 0: starker Zusammenhang, gain < 0: schwacherZusammenhang

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-13 (274)

7.1.3 Gain-Funktion

Gain-Funktion

Bemerkung 7.1 (Gain)

Woher kommt der gain? Je geringer der Support von A, desto höhersoll die Konfidenz der Regel sein:

conf(A→ B)≥ minconf

supp(A)+θ

Wir erlauben θ zwischen 0 und 1. Mit conf(A→ B) = supp(A→B)supp(A)

können wir die Ungleichung mit supp(A) multiplizieren und erhalten:

supp(A→ B)≥minconf + supp(A)×θ

supp(A→ B)−θ× supp(A)≥minconf

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-14 (275)

7.1.4 p-s-Funktion

Kriterien für Interessantheitsmaße

Kriterien für Interessantheitsmaße für Assoziationsregeln (RI):

1. RI(A→ B) = 0 genau dann, wenn supp(A→ B) = P(A)×P(B)ist. Das Interessantheitsmaß sollte 0 sein, wenn A und Bstatistisch unabhängig sind.

2. RI sollte mit supp(A→ B) monoton wachsen.

3. RI sollte mit P(A) und P(B) monoton fallen.

Konfidenz erfüllt nur die Bedingung 2!

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-15 (276)

7.1.4 p-s-Funktion

p-s-Funktion

ps(A→ B) = supp(A→ B)− supp(A)× supp(B)

I wie Gain-Funktion mit θ = supp(B)

I ps > 0: positiver, ps < 0: negativer statistischerZusammenhang

7 Bewertung Wissensextraktion

7.1 Interessantheitsmaße Folie 7-16 (277)

7.1.5 Lift

Lift

lift(A→ B) =supp(A→ B)

supp(A)× supp(B)=

conf(A→ B)supp(B)

I Wahrscheinlichkeit der Regel im Verhältnis zu ihrem Auftreten

I Außergewöhnlichkeit der Regel

7 Bewertung Wissensextraktion

7.2 Gütemaße und Fehlerkosten Folie 7-17 (278)

7.2.1 Fehlerraten

Fehlerraten

Fehlerrate bei Klassifikationen

Fehlerrate =Fehler

Alle

Fehlerrate bei numerischer Vorhersage

Fehlerrate =∑i(Realwerti −Vorhersagewerti)

2

∑i

Realwert2i

ErfolgsrateErfolgsrate = 1−Fehlerrate

7 Bewertung Wissensextraktion

7.2 Gütemaße und Fehlerkosten Folie 7-18 (279)

7.2.2 Weitere Gütemaße für Klassifikatoren

Weitere Gütemaße für Klassifikatoren

Man unterscheidet 4 Fälle:

TP (richtig positiv) Ein guter Kunde wird als guter erkannt.

TN (richtig negativ) Ein nicht guter Kunde wird als nicht guter erkannt.

FP (falsch positiv) Ein nicht guter Kunde wird als guter erkannt.

FN (falsch negativ) Ein guter Kunde wird als nicht guter erkannt.

Darauf aufbauend definiert man eine Reihe von abgeleitetenKenngrößen.

7 Bewertung Wissensextraktion

7.2 Gütemaße und Fehlerkosten Folie 7-19 (280)

7.2.2 Weitere Gütemaße für Klassifikatoren

Weitere Gütemaße für Klassifikatoren

Korrekte Klassifikationen T=TP+TN

Falsche Klassifikationen F=FP+FN

Relevanz R=TP+FN (Anzahl der guten Kunden)

Irrelevanz I=FP+TN (Anzahl der nicht guten Kunden)

Positivität P=TP+FP (Anzahl der als gut klassifizierten Kunden)

Negativität N=TN+FN (Anzahl der als nicht gut klassifiziertenKunden)

Korrektheitsrate T/n (Anteil der korrekt klassifizierten Kunden)

Inkorrektheitsrate F/n (Anteil der nicht korrekt klassifizierten Kunden)

Page 36: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

7 Bewertung Wissensextraktion

7.2 Gütemaße und Fehlerkosten Folie 7-20 (281)

7.2.2 Weitere Gütemaße für Klassifikatoren

Weitere Gütemaße für Klassifikatoren

Richtig-positiv-Rate TPR=TP/R (Wie oft wurde ein guter Kunde auchals solcher klassifiziert.) (Sensitivität, Trefferquote,Recall)

Richtig-negativ-Rate TNR=TN/I (Wie oft wurde ein nicht guter Kundeauch als solcher klassifiziert.)

Falsch-positiv-Rate FPR=FP/I (Wie oft wurde ein nicht guter Kundeals guter klassifiziert.)

Falsch-negativ-Rate FNR=FN/R (Wie oft wurde ein guter Kunde alsnicht guter klassifiziert.)

7 Bewertung Wissensextraktion

7.2 Gütemaße und Fehlerkosten Folie 7-21 (282)

7.2.2 Weitere Gütemaße für Klassifikatoren

Weitere Gütemaße für Klassifikatoren

Positiver Vorhersagewert, Genauigkeit, Präzision TP/P (Wie oft ist einals gut vorhergesagter Kunde ein guter Kunde?)

Negativer Vorhersagewert TN/N (Wie oft ist ein als nicht gutvorhergesagter Kunde ein nicht guter Kunde?)

Negative Falschklassifikationsrate FN/N (Wie oft ist ein als nicht gutvorhergesagter Kunde ein guter Kunde?)

Positive Falschklassifikationsrate FP/P (Wie oft ist ein als gutvorhergesagter Kunde ein nicht guter Kunde?)

7 Bewertung Wissensextraktion

7.2 Gütemaße und Fehlerkosten Folie 7-22 (283)

7.2.3 Fehlerkosten

Fehlerkosten

I Klassifikator wirkt sich auf Gewinn bzw. Verlust einer Firma aus.I Kredit für Bankkunde bewilligt,

I . . . den dieser nicht zurückzahlt, entstehen zusätzliche Kosten.I . . . den dieser zurückzahlt, entsteht Gewinn.

I Kredit für Bankkunde nicht bewilligt,I . . . den dieser zurückgezahlt hätte, entsteht Verlust in Zinshöhe.I . . . den dieser nicht zurückgezahlt hätte, wurde Verlust verhindert.

I Fehler ist also nicht gleich Fehler,korrekte Vorhersage nicht gleich korrekte Vorhersage.

I Folglich: gewichtete Fehlerrate

7 Bewertung Wissensextraktion

7.2 Gütemaße und Fehlerkosten Folie 7-23 (284)

7.2.3 Fehlerkosten

Kostenmatrix

Vorhersage0 1

0 10 -201 -30 20

Wird ein Datensatz des Typs 0 mit 1 vorhergesagt, so kostet uns das20, eine korrekte Vorhersage für 0 bringt uns 10.; Gewichtete Fehlerberechnung

7 Bewertung Wissensextraktion

7.3 Trainings- und Testmengen Folie 7-24 (285)

Trainings- und Testmengen

I Lernen allein auf der gegebenen Menge nicht ausreichend.

I Verfahren würde gegebene Beispiele auswendig lernen.

I Also: separate Testmenge erforderlich

Wie teilt man Beispielmenge auf in:

I Trainingsmenge

I Testmenge

7 Bewertung Wissensextraktion

7.3 Trainings- und Testmengen Folie 7-25 (286)

7.3.1 Holdout

Holdout

Beim Holdout wird die Instanzenmenge in zwei Teilmengen zerlegt,wobei die eine zum Trainieren und die andere zum Testen verwendetwird.

Train∪Test = Instance

7 Bewertung Wissensextraktion

7.3 Trainings- und Testmengen Folie 7-26 (287)

7.3.2 Stratifikation

Stratifikation

zufälliges Holdout evtl. Problem, dass Testdaten und TrainingsdatenBeispiele völlig unterschiedlicher Klassen enthalten

Stratifikation versucht Teilung so, dass sowohl in der Trainings- alsauch in der Testmenge die Häufigkeitsverteilung h derKlassen K in der gesamten Instanzenmenge abgebildetwird.

∀k ∈ K : hInstancek = hTrain

k = hTestk

7 Bewertung Wissensextraktion

7.3 Trainings- und Testmengen Folie 7-27 (288)

7.3.3 Kreuzvalidierung

Kreuzvalidierung

I Aufteilung der Datenmenge stratifiziert in V gleich großeTeilmengen

I Auswahl EINER dieser Untermengen als Testmenge

I Training mit den anderen Untermengen

I Test mit zurückbehaltener Testmenge

I Wiederholung mit jeder anderen Teilmenge als Testmenge

I Fehlerrate des Verfahrens: Mittelwert der jeweiligen Fehlerraten

Fehlerrate =

V∑

i=1Fehlerratei

V

Page 37: Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

7 Bewertung Wissensextraktion

7.3 Trainings- und Testmengen Folie 7-28 (289)

7.3.4 Leave-one-out

Leave-one-out

Das Leave-one-out-Verfahren ist im wesentlichen identisch mit derKreuzvalidierung. Hierbei wird jedoch die N-elementigeInstanzenmenge in genau N Teilmengen zerlegt.

Fehlerrate =

|Instance|∑

i=1Fehlerratei

|Instance|

7 Bewertung Wissensextraktion

7.4 Bewertung von Clustern Folie 7-29 (290)

Bewertung von Clustern

Ansatz 1:G1 =

k

∑i=1

∑x∈Ci

dist(x ,mi)2

Güte1 =1

k∑

i=1∑

x∈Ci

dist(x ,mi)2

Ansatz 2: Güte2 = ∑1≤i≤j≤k

dist(mj ,mi)2

Man kann die Ansätze kombinieren, indem man beide Gütemaßemultipliziert:

Güte = Güte1×Güte2

8 Literatur Wissensextraktion

Folie 8-30 (291)

Literatur

Jürgen Cleve, Uwe Lämmel.Data Mining.Oldenbourg, 2014.

Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth,Ramasamy Uthurusamy.Advances in Knowledge Discovery and Data Mining.MIT Press, 1996.

Hans-Georg Kemper and Walid Mehanna and Carsten Unger.Business Intelligence.Vieweg, 2006.

Dorian Pyle.Data Preparation for Data Mining.Morgan Kaufmann, 1999.