109
Data Mining 2. Vorlesung Georg Pölzlbauer 15. Mai 2007 [email protected]

Data Mining 2. Vorlesung

  • Upload
    dacian

  • View
    36

  • Download
    0

Embed Size (px)

DESCRIPTION

Data Mining 2. Vorlesung. Georg Pölzlbauer 15. Mai 2007 [email protected]. Thematisch verwandte (aufbauende) Lehrveranstaltungen. SS 188.464, Data Mining, 2 VO WS 181.191, Machine Learning, 2 VU WS 188.413, Selbstorganisierende Systeme, 3 VU - PowerPoint PPT Presentation

Citation preview

Page 1: Data Mining 2. Vorlesung

Data Mining2. Vorlesung

Georg Pölzlbauer15. Mai 2007

[email protected]

Page 2: Data Mining 2. Vorlesung

Thematisch verwandte (aufbauende) Lehrveranstaltungen

SS 188.464, Data Mining, 2 VO WS 181.191, Machine Learning, 2

VU WS 188.413, Selbstorganisierende

Systeme, 3 VU SS 188.412, Information Retrieval, 3

VU

Page 3: Data Mining 2. Vorlesung

Weiterführende Themen

Data Mining Tutorials: http://www.autonlab.org/tutorials/

WS 183.425, Statistische Mustererkennung, 2 VO + 2 UE

SS 107.284, AKSTA Advanced Regression and Classification, 2 VU

Page 4: Data Mining 2. Vorlesung

Übersicht

I. Hauptkomponentenanalyse (PCA)II. Problemstellung: Überwachtes

LernenIII. k-Nearest NeighborsIV. Decision TreesV. Lineare KlassifizierungVI. ModellselektionVII. Support Vector Machines

Page 5: Data Mining 2. Vorlesung

Übersicht

I. Hauptkomponentenanalyse (PCA)II. Problemstellung: Überwachtes

LernenIII. k-Nearest NeighborsIV. Decision TreesV. Lineare KlassifizierungVI. ModellselektionVII. Support Vector Machines

Page 6: Data Mining 2. Vorlesung

I. Visualisierung von Daten

Daten sind meist hochdimensional Scatterplot kann nur 2 Variablen

darstellen Scatterplot Matrix kann beliegig

viele Dimensionen darstellen wird aber schnell unübersichtlich

Page 7: Data Mining 2. Vorlesung

I. Scatterplot

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

Page 8: Data Mining 2. Vorlesung

I. Beispiel 3D

http://noppa5.pc.helsinki.fi/koe/3d3.html

Page 9: Data Mining 2. Vorlesung

I. Scatterplot Matrix: 3 Dimensionen

Page 10: Data Mining 2. Vorlesung

I. Scatterplot Matrix: 8 Dimensionen

Page 11: Data Mining 2. Vorlesung

I. Hauptkomponentenanalyse

Principal Component Analysis (PCA) Sucht (& findet) die

"interessanteste" 2-dimensionale Projektion

"Interessant": Richtung mit der höchsten Varianz

Page 12: Data Mining 2. Vorlesung

I. Varianz

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

s1

s2

Page 13: Data Mining 2. Vorlesung

I. Beispiel PCA

-> Kamera

Page 14: Data Mining 2. Vorlesung

I. PCA: Theorie

wird aus Kovarianzmatrix berechnet (=> Problem mit Ausreißern)

Eigenvektoren/Eigenwerte werden gebildet

Eigenvektoren mit höchsten Eigenwerten sind Hauptkomponenten

Neue Achsen haben keinen semantischen Sinn mehr

Page 15: Data Mining 2. Vorlesung

I. Beispiel Hauptkomponenten

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

Page 16: Data Mining 2. Vorlesung

I. Beispiel Hauptkomponenten

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

Page 17: Data Mining 2. Vorlesung

Übersicht

I. Hauptkomponentenanalyse (PCA)II. Problemstellung: Überwachtes

LernenIII. k-Nearest NeighborsIV. Decision TreesV. Lineare KlassifizierungVI. ModellselektionVII. Support Vector Machines

Page 18: Data Mining 2. Vorlesung

II. Problemstellunggender age smoker eye

color

male 19 yes green

female 44 yes gray

male 49 yes blue

male 12 no brown

female 37 no brown

female 60 no brown

male 44 no blue

female 27 yes brown

female 51 yes green

female 81 yes gray

male 22 yes brown

male 29 no blue

lung cancer

no

yes

yes

no

no

yes

no

no

yes

no

no

no

male 77 yes gray

male 19 yes green

female 44 no gray

?

?

?

Page 19: Data Mining 2. Vorlesung

II. Problemstellunggender age smoker eye

color

male 19 yes green

female 44 yes gray

male 49 yes blue

male 12 no brown

female 37 no brown

female 60 no brown

male 44 no blue

female 27 yes brown

female 51 yes green

female 81 yes gray

male 22 yes brown

male 29 no blue

lung cancer

no

yes

yes

no

no

yes

no

no

yes

no

no

no

male 77 yes gray

male 19 yes green

female 44 no gray

?

?

?

Training Modell

Page 20: Data Mining 2. Vorlesung

II. Problemstellunggender age smoker eye

color

male 19 yes green

female 44 yes gray

male 49 yes blue

male 12 no brown

female 37 no brown

female 60 no brown

male 44 no blue

female 27 yes brown

female 51 yes green

female 81 yes gray

male 22 yes brown

male 29 no blue

lung cancer

no

yes

yes

no

no

yes

no

no

yes

no

no

no

male 77 yes gray

male 19 yes green

female 44 no gray

yes

no

no

Training Modell

Vorhersage

Page 21: Data Mining 2. Vorlesung

II. Begriffsdefinition

bei ML muss ein kategorisches Attribut vorhergesagt werden (kontinuierlich = Regression)

Synonyme: Überwachtes Lernen (Supervised

Learning) Klassifikation Machine Learning (ML) (Prediction)

Page 22: Data Mining 2. Vorlesung

II. Beispiel

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

Page 23: Data Mining 2. Vorlesung

Übersicht

I. Hauptkomponentenanalyse (PCA)II. Problemstellung: Überwachtes

LernenIII. k-Nearest NeighborsIV. Decision TreesV. Lineare KlassifizierungVI. ModellselektionVII. Support Vector Machines

Page 24: Data Mining 2. Vorlesung

III. k-Nearest Neighbors (1)

Einfaches Lernverfahren, bei dem kein Modell gebildet wird

Die Trainingsdaten werden zum Klassifizieren verwendet (lazy learning)

Hyperparameter: k ist die Anzahl der nächsten Nachbaren, die betrachtet werden um die Klasse zu ermitteln

Page 25: Data Mining 2. Vorlesung

III. k-Nearest Neighbors (2)

wenn es nur 2 Klassen gibt sollte k ungerade sein

wird bei einer hohen Anzahl an Samples ineffizient

ist stark von der Skalierung abhängig

Page 26: Data Mining 2. Vorlesung

III. Beispiel kNN

Page 27: Data Mining 2. Vorlesung

III. Beispiel kNN

?

Page 28: Data Mining 2. Vorlesung

III. Beispiel kNN: k = 1

Page 29: Data Mining 2. Vorlesung

III. Beispiel kNN: k = 3

Page 30: Data Mining 2. Vorlesung

III. Beispiel kNN: k = 5

Page 31: Data Mining 2. Vorlesung

Übersicht

I. Hauptkomponentenanalyse (PCA)II. Problemstellung: Überwachtes

LernenIII. k-Nearest NeighborsIV. Decision TreesV. Lineare KlassifizierungVI. ModellselektionVII. Support Vector Machines

Page 32: Data Mining 2. Vorlesung

IV. Binäre Decision Trees

Bauen auf Informationstheorie auf (Shannon)

Sind ein rekursiver Algorithmus bei dem der Eingaberaum bei jedem Schritt in 2 Teile gespalten wird

Klassifizierung: Baum wird von der Wurzel an abgearbeitet bis ein Blatt erreicht wird

Page 33: Data Mining 2. Vorlesung

IV. Decision Trees: Beispiel

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

red blue y < 1.7

red

red

red blue

Page 34: Data Mining 2. Vorlesung

IV. Informationstheorie, Entropie

Von Claude Shannon Anwendungen u.a. in

Datenkompression Mißt Informationsgehalt und

Redundanz Informationsgehalt wird in Bits

gemessen

Page 35: Data Mining 2. Vorlesung

IV. Was ist „Entropie“?

In ML ist Entropie ein Maß für die Unreinheit eines Datensets

Hohe Entropie: schlecht für Klassifizierung muß reduziert werden

Formel für Entropie H von Datensatz X:

∑=

−=n

iii xpxpXH

12 )(log)( )(

Page 36: Data Mining 2. Vorlesung

IV. Berechnung von H(X)

67.012

8)(

33.012

4)(

blue

red

==

==

xp

xp

∑=

−=n

iii xpxpXH

12 )(log)( )(

67.0log67.033.0log33.0 )( 22 ×−×−=XH

92.0

39.053.0

)0.59()67.0()1.59()33.0(

=+=

−×−+−×−=

Page 37: Data Mining 2. Vorlesung

IV. H(X): Fallbeispiele

0

0.88

0.88

1

H(X)

0.70.3II

0.30.7III

10IV

0.50.5I

p(xblue)p(xred)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

p(xred)

H(X) ∑

=

−=n

iii xpxpXH

12 )(log)( )(

Page 38: Data Mining 2. Vorlesung

IV. H(X): Relative und absolute Häufigkeiten

Nur relative Häufigkeiten sind relevant!

red blue

1 8 4

2 18 9vs.

=> H(X1) = H(X2)

Page 39: Data Mining 2. Vorlesung

Information Gain: Untergruppen, die die Entropie am stärksten verringern

IV. Information Gain

)()()()()(),( BBAABA XHxpXHxpXHXXIG −−=

H(X) = 1

Gegeben: Datenset und 3 verschiedene Möglichkeiten zur Unterteilung, wie entscheidet man am besten?

A (green) B (yellow)

Points 6 4

p(X.) 0.6 0.4

p(xred) 0.33 0.75

p(xblue) 0.67 0.25

H(X.) 0.92 0.81

IG 0.12

A (green) B (yellow)

Points 9 1

p(X.) 0.9 0.1

p(xred) 0.44 1

p(xblue) 0.56 0

H(X.) 0.99 0

IG 0.11

A (green) B (yellow)

Points 5 5

p(X.) 0.5 0.5

p(xred) 0.2 0.8

p(xblue) 0.8 0.2

H(X.) 0.72 0.72

IG 0.28

Page 40: Data Mining 2. Vorlesung

IV. Informatin Gain (Eigenschaften)

IG ist höchstens so groß wie die Entropie vor der Teilung

IG ist der Wert um den Entropie durch Teilung verringert werden kann

IG ist mindestens 0 (falls die Entropie nicht reduziert werden kann)

0 <= IG <= H(X)

Page 41: Data Mining 2. Vorlesung

IV. Decision Trees Algorithmus

Datenset: Kategorische oder quantitative Variable

Für jede Dimension, für jeden möglichen Split wird IG berechnet Kategorisch: Eine gegen den Rest Quantitativ: Sortieren, dann zwischen

allen möglichen Werten trennen Rekursion bis nicht mehr geteilt

werden kann

Page 42: Data Mining 2. Vorlesung

IV. Decision Trees: Quantitative Varible

0.060.13

0.010.05

0.110.29

0.430.28

0.17

0.090.26

0.16

0.07

0.000.010.030.08

0.03

0.000.000.010.13

0.06

original H: 0.99

Page 43: Data Mining 2. Vorlesung

x < 12.3

blue red

x < 12.3

y < 4.6 y < 3.9

blue blue red red

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

red blue ?

red

red

IV. Decision Trees: Beispiel

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

red blue y < 1.7

red

red

red blue

Page 44: Data Mining 2. Vorlesung

IV. Decision Trees: Klassifikation

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

red blue y < 1.7

red

red

red blue

Page 45: Data Mining 2. Vorlesung

IV. Decision Trees: Klassifikation

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

red blue y < 1.7

red

red

red blue

Page 46: Data Mining 2. Vorlesung

IV. Decision Trees: Klassifikation

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

red blue y < 1.7

red

red

red blue

Page 47: Data Mining 2. Vorlesung

IV. Decision Trees: Mehr als 2 Klassen

∑=

−=n

iii xpxpXH

12 )(log)( )(

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

orange blue y < 1.7

red

orange

red blue

∑=

−=m

jjjm XHxpXHXXIG

11 )()()(),...,(

Page 48: Data Mining 2. Vorlesung

IV. Decision Trees: Nicht-binäre Bäume

drive-wheels?

fwd 4wdrwd

… … …

∑=

−=m

jjjm XHxpXHXXIG

11 )()()(),...,(

∑=

−=n

iii xpxpXH

12 )(log)( )(

Page 49: Data Mining 2. Vorlesung

IV. Decision Trees: Overfitting

Vollständige Decision Trees sind meistens zu komplex

Page 50: Data Mining 2. Vorlesung

IV. Decision Trees: Trainingsende

Mögliche Kriterien zur Unterbrechung der Rekursion: Anzahl der Samples ist gering (unter

einem Schwellwert) Entropie ist gering IG ist gering statistische Tests (Chi-Quadrat) etc.

Schwellwerte sind Hyperparameter

Page 51: Data Mining 2. Vorlesung

IV. Decision Trees: Pruning

"Pruning" bedeutet, daß man den Baum umformt oder Äste wegschneidet

Trainings-Abbruch-Kriterien werden manchmal als "Pre-pruning" bezeichnet

Redundante Knoten werden entfernt, manchmal wird Baum umgeformt

Page 52: Data Mining 2. Vorlesung

x < 12.3

blue red

x < 12.3

y < 4.6 y < 3.9

blue blue red red

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

red blue ?

red

red

IV. Beispiel: Pruning

x < 12.3

y < 4.6 y < 3.9

blue x < 11.7 x < 13.1

red blue y < 1.7

red

red

red blue

Page 53: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 54: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 55: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 56: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 57: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 58: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 59: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 60: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 61: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 62: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 63: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 64: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 65: Data Mining 2. Vorlesung

IV. Decision Trees: Zuverlässigkeit

Page 66: Data Mining 2. Vorlesung

Übersicht

I. Hauptkomponentenanalyse (PCA)II. Problemstellung: Überwachtes

LernenIII. k-Nearest NeighborsIV. Decision TreesV. Lineare KlassifizierungVI. ModellselektionVII. Support Vector Machines

Page 67: Data Mining 2. Vorlesung

V. Lineare Klassifikatoren (1)

Eine Trennebene, die den Raum in 2 Hälften teilt, klassifiziert die Samples

Modell besteht nur aus Ebenengleichung Normalvektor (gerichtet) Bezugspunkt

Page 68: Data Mining 2. Vorlesung

V. Lineare Klassifikatoren (2)

"Hyperebene": Dimension des Vektorraumes – 1 in 2D: Linie in 3D: Ebene in 4D: Raum

Verschiedene Verfahren: Perzeptron (Rosenblatt) Moore-Penrose-Inverse Largest Margin Classifier (->SVM)

Page 69: Data Mining 2. Vorlesung

V. Perzeptron Algorithmus

Iteratives Verfahren: Hyperebene wird zufällig initialisiert Datenpunkte werden in zufälliger

Reihenfolge iteriert wenn Punkt auf richtiger Seite =>

keine Anpassung wenn Punkt auf falscher Seite =>

Änderung der Hyperebene Wiederholen bis Abbruchskriterium

erreicht

Page 70: Data Mining 2. Vorlesung

V. Beispiel: Perzeptron

Page 71: Data Mining 2. Vorlesung

V. Beispiel: Perzeptron

Page 72: Data Mining 2. Vorlesung

V. Beispiel: Perzeptron

Page 73: Data Mining 2. Vorlesung

V. Beispiel: Perzeptron

Page 74: Data Mining 2. Vorlesung

V. Beispiel: Perzeptron

Page 75: Data Mining 2. Vorlesung

Übersicht

I. Hauptkomponentenanalyse (PCA)II. Problemstellung: Überwachtes

LernenIII. k-Nearest NeighborsIV. Decision TreesV. Lineare KlassifizierungVI. ModellselektionVII. Support Vector Machines

Page 76: Data Mining 2. Vorlesung

VI. Modellselektion

Allgemeines ML Framework zur Schätzung der Hyperparameter

(Tuning) zur Auswahl des besten Modells

(lokale Minima vermeiden)

Page 77: Data Mining 2. Vorlesung

VI. Warum ist Generalisierung wichtig?

140 150 160 170 180 190 200

Page 78: Data Mining 2. Vorlesung

VI. Warum ist Generalisierung wichtig?

150 160 170 180 190 200

140 150 160 170 180 190 200

Page 79: Data Mining 2. Vorlesung

VI. Warum ist Generalisierung wichtig?

150 160 170 180 190 200

Page 80: Data Mining 2. Vorlesung

VI. Warum ist Generalisierung wichtig?

150 160 170 180 190 200

f m f m

Page 81: Data Mining 2. Vorlesung

140 150 160 170 180 190 200

VI. Warum ist Generalisierung wichtig?

150 160 170 180 190 200

f m f m

Page 82: Data Mining 2. Vorlesung

140 150 160 170 180 190 200

VI. Bayes optimaler Klassifikator

150 160 170 180 190 200

Page 83: Data Mining 2. Vorlesung

VI. Training Set, Test Set

Lösung: Datenset in Training- und Testset

aufspalten ~80% Training, 20% Test

Verschiedene Modelle trainieren Testset klassifizieren das Modell mit dem geringsten

Testset fehler wird gewählt

Page 84: Data Mining 2. Vorlesung

VI. Komplexität vs. Generalisierung

Fehler

Modellkomplexität

Testset

Trainingset

Beste Wahl

Page 85: Data Mining 2. Vorlesung

VI. Schätzung des Generalisierungsfehlers

Testset wird zur Modellselektion und zur Einstellung der Hyperparameter verwendet

deshalb ist der Testset-Fehler kein gutes Maß für den Generalisierungsfehler

Generalisierungsfehler ist der zu erwartende Fehler den der Klassifikator auf einem Datenset machen wird (nach Tuning)

Page 86: Data Mining 2. Vorlesung

VI. Training-Test-Validation

Teilund des Datensets (ähnl. Training-Test): z.B. 60% Training 20% Test 20% Validation

Klassifikator auf Trainingset trainieren Bestes Modell anhand von Testset-

Performance aussuchen Generalisierungsfehler auf Validationset

abschätzen

Page 87: Data Mining 2. Vorlesung

VI. Crossvalidation

Datenset wird in 10 gleichgroße Gruppen unterteilt Das heißt dann 10-fold crossvalidation

10 Mal wiederholen (durchrotieren): 9 Teile werden als Training/Testset verwendet die Performance wird am letzten Set gemessen

die Schätzung des Generalisierungsfehlers ist dann der Mittelwert dieser 10 Durchgänge

Page 88: Data Mining 2. Vorlesung

Übersicht

I. Hauptkomponentenanalyse (PCA)II. Problemstellung: Überwachtes

LernenIII. k-Nearest NeighborsIV. Decision TreesV. Lineare KlassifizierungVI. ModellselektionVII. Support Vector Machines

Page 89: Data Mining 2. Vorlesung

VII. Support Vector Machines

von V. Vapnik eingeführt ziemlich komplizierter

mathematischer Hintergrund bestehen aus 2 Komponenten:

Optimierung (Maximierung des Abstandes)

Kernel (Transformation des Datenraumes)

Page 90: Data Mining 2. Vorlesung

VII. Lineare Separierung

Page 91: Data Mining 2. Vorlesung

VII. Lineare Separierung

Page 92: Data Mining 2. Vorlesung

VII. Lineare Separierung

Page 93: Data Mining 2. Vorlesung

VII. Lineare Separierung

Page 94: Data Mining 2. Vorlesung

VII. Largest Margin

Page 95: Data Mining 2. Vorlesung

VII. Largest Margin

Optimale Hyperebene kann als Optimierungsproblem dargestellt werden

Durch quadratische Programmierung gelöst

Soft margin: Es müssen nicht 100% sauber getrennt werden, aber jeder falsch klassifizierte Punkt wird bestraft

Page 96: Data Mining 2. Vorlesung

VII. Nicht linear trennbare Daten

Page 97: Data Mining 2. Vorlesung

VII. Nicht linear trennbare Daten

Page 98: Data Mining 2. Vorlesung

VII. Nicht linear trennbare Daten

Page 99: Data Mining 2. Vorlesung

VII. Nicht linear trennbare Daten

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

x

y

Page 100: Data Mining 2. Vorlesung

VII. Zusätzliche Koordinate z=x2

-4 -3 -2 -1 0 1 2 3 4

-4

-2

0

2

4

0

5

10

15

x

y

z=x2

Page 101: Data Mining 2. Vorlesung

VII. Zusätzliche Koordinate z=x2

0 2 4 6 8 10 12-4

-3

-2

-1

0

1

2

3

z=x2

y

Page 102: Data Mining 2. Vorlesung

VII. Kernel

Projektion des Datenraumes auf höherdimensionalen Featureraum (feature space) z.B. R2->R5

Daten sind dann möglicherweise linear separierbar (in hochdimensionalem Raum)

Projektion passiert durch Multiplikation mit Kernelmatrix

die Kernelmatrix legt die Art der Projektion fest (d.h. wie sich die neuen Koordinaten aus den alten berechnen)

Page 103: Data Mining 2. Vorlesung

VII. Gängige Kernels

Quadratischer Kernel Radial Basis Kernel (RBF) Polynomieller Kernel (von

beliebigem Grad) Linearer Kernel (=kein Kernel)

Page 104: Data Mining 2. Vorlesung

VII. Kernel Trick

Alle ML Algorithmen könnten mit dieser Datenprojektion durch einen Kernel arbeiten, warum also SVMs?

Höherdimensionale Daten sind üblicherweise ein Problem für alle Algorithmen (Komplexität, Fluch der Dimensionen)

"Kernel Trick": Das Optimierungsproblem kann so umgeformt werden, dass nur die Distanzen im hochdimensionalen Raum benötigt werden und das kann sehr effizient berechnet werden

Page 105: Data Mining 2. Vorlesung

VII. Eigenschaften von SVMs

Gute Ergebnisse Lineare Kernels: Gut bei dünn

besetzten, hochdimensionalen Daten

Gut erforscht => solider theoretischer Hintergrund (siehe VC-Dimension etc.)

Page 106: Data Mining 2. Vorlesung

Prüfungsfragen

Alle der folgenden Begriffe bezeichnen gültige Datenskalen mit Ausnahme von: Nominalskala Intervallskala Binomialskala Ordinalskala

Page 107: Data Mining 2. Vorlesung

Prüfungsfragen

Welche der folgenden Aussagen über Datenaufbereitung für Data Mining ist richtig?

Verhältnisskalierte Merkmale müssen mit 1-zu-N Kodierung aufbereitet werden, um von den meisten Data Mining Algorithmen verarbeitet werden zu können.

Die Standardabweichung ist ein skalenunabhängiger Wert, der Aussagen über die Streuung zulässt, ohne dass die Einheit des gemessenen Mermals eine Rolle spielt.

Ausreißer führen zu Problemen mit der Verwendbarkeit der Standardabweichung und der Kovarianzmatrix.

Die zero-mean-unit-variance Normalisierung wird durch Division der ursprünglichen Wertes durch den Mittelwert und Subtraktion der Standardabweichung erreicht.

Page 108: Data Mining 2. Vorlesung

Prüfungsfragen

Welche der folgenden Aussagen über Verteilungen ist falsch? In typischen Data Mining Problemen ist die

Dichtefunktion der analysierten Daten entweder bekannt oder zumindest direkt beobachtbar.

Der Graph der Dichtefunktion einer Normalverteilung wird auch als Gauß'sche Glockenkurve bezeichnet.

Die Standardnormalverteilung ist eine Normalverteilung mit Mittelpunkt 0 und Varianz 1.

Eine multivariate Normalverteilung wird durch den Mittelpunktsvektor und die Kovarianzmatrix vollständig beschrieben.

Page 109: Data Mining 2. Vorlesung

Ende!