„Ridge Regression“ und „Kernalized Support Vector Machines“:...

10. Mai 2017 1

Dr. Dominik Grimm

„Ridge Regression“ und „Kernalized Support VectorMachines“: Einführung und Vergleich an einem

Anwendungsbeispiel

ProbelehrveranstaltungFakultät für Informatik und MathematikHochschule München

München, 10. Mai 2017

Ridge Regression & Support Vector Machine

10. Mai 2017 Ridge Regression & Support Vector Machine 2

Inhalte & Lernziele dieser Vorlesung

Was ist Ridge Regression?

Einführung ins Thema

Vergleich von Ridge Regression & SVM an einem Beispiel

Was ist eine Kernalized Support Vector Machine?

Zusammenfassung der Vorlesungsinhalte und Ausblick

Motivation & EinführungRückblick: Lineare Regression

Fläche Wohnung in m2

𝒚 = 𝑏 + 𝑤&𝒙Lineare Regression:

𝒙 ∈ ℝ+:Einflussgröße(Feature)𝒚 ∈ ℝ+:Zielvariable(Target)

𝑛:AnzahlTrainingsinstanzen𝑏, 𝑤& ∈ ℝ:Gewichte(Parameter)

𝒚 = 𝑏 + 𝑤&𝒙Lineare Regression:

Parameter 𝑏,𝑤& sind unbekannt. Diese müssen gelernt werden.

𝒚 = 𝑏 + 𝑤&𝒙

ℒ 𝒘 =0 𝑦2 − 𝑏 + 𝑤&𝑥2 5𝒏

Lineare Regression:

Straffunktion (Loss):

𝒚 = 𝑏 + 𝑤&𝒙

ℒ 𝒘 =0 𝑦2 − 𝑏 + 𝑤&𝑥2 5𝒏

Lineare Regression:

Straffunktion (Loss):

Lernen der unbekannten Parameter durch Minimierung der Straffunktion

Unteranpassung (Underfitting)Das Modell beschreibt die Trainingsdaten nicht ausreichend

𝒚 = 𝑏 + 𝑤&𝒙𝟏 + 𝑤5𝒙𝟏𝟐 + 𝑤:𝒙𝟏𝟑 + ⋯+𝑤&==𝒙𝟏𝟏𝟎𝟎

Polynomiale Regression durch Hinzufügen von Features höherer

Ordnung:

𝒚 = 𝑏 + 𝑤&𝒙𝟏 + 𝑤5𝒙𝟏𝟐 + 𝑤:𝒙𝟏𝟑 + ⋯+𝑤&==𝒙𝟏𝟏𝟎𝟎

Polynomiale Regression durch Hinzufügen von Features höherer

Ordnung:

100 Features (Einflussgrößen)

Zielvariable y

Motivation & EinführungRückblick: Polynomiale Regression (m=100; Grad des Polynoms)

Motivation & EinführungRückblick: Polynomiale Regression (m=100)

Überanpassung (Overfitting)Das Modell generalisiert schlecht auf unbekannten Daten

Einführung in Ridge Regression

ℒ 𝒘 =1𝑛0 𝑦2 − 𝑏 + 𝒘@𝒙2 5 + 𝛼 𝒘 5

BCDEFGH2I2CHE+DIJCHK

Ridge Regression Loss:

Ridge Regression

Einführung in Ridge Regression

Ridge Regression Loss:

Ridge Regression

𝒘 55 =0𝑤L5 = 𝒘@𝒘

LQuadrierte L2-Norm

Lernen der unbekannten Parameter durch Minimierung der Straffunktion

ℒ 𝒘 =1𝑛0 𝑦2 − 𝑏 + 𝒘@𝒙2 5 + 𝛼 𝒘 5

BCDEFGH2I2CHE+DIJCHK

Einführung in Ridge RegressionIntuition Ridge Regression

w2LQ ℒ 𝒘 =

1𝑛0 𝑦2 − 𝑏 + 𝒘@𝒙2 5

ℒ 𝒘 =1𝑛0 𝑦2 − 𝑏 + 𝒘@𝒙2 5 + 𝛼 𝒘 5

Effekt eines kleinen α

Regularisierung hat einen schwachen Effekt auf Parameter

(Gefahr von Overfitting)

ℒ 𝒘 =1𝑛0 𝑦2 − 𝑏 + 𝒘@𝒙2 5 + 𝛼 𝒘 5

w* Effekt eines großen α

Regularisierung hat einen starken Effekt auf die Parameter

(Gefahr von Underfitting)

Einführung in Ridge RegressionEffekt der L2-Regularisierung auf die Gewichte/Parameter

UnteranpassungÜberanpassung

Einführung in Ridge RegressionWie findet man den optimalen Parameter α?

Test FoldTraining Folds

Subtraining Subtest

Trainiere mit kleinem alpha Teste

Trainiere mit hohem alpha Teste

Erhöhe alpha TesteTrainiere mit bestem alpha

Einführung in Ridge RegressionWie findet man den optimalen Parameter α?

Verschachtelte k-fache Kreuzvalidierung mit interner Liniensuche

Einführung in Ridge RegressionBeispiel: Ridge Regression (m=100)

Optimale Abwägung zwischen zu einfachem und zu komplexem Model durch L2-Regularisierung

Zusammenfassung Ridge RegressionWas haben wir gelernt?

• Ridge Regression wird bei Regressionsproblemen verwendet, welcheviele (korrelierten) Features besitzt (und/oder wenige Trainings-Instanzen), um eine Unter- oder Überanpassung des Models zuvermeiden.

• Ridge Regression ist eine überwachte (supervised) Lernmethode, welcheeinen Strafterm besitzt, um die Gewichte (Parameter) derRegressionsmethode zu regularisieren.

• Der Strafterm entspricht der L2-Norm.

• Den optimalen Hyperparameter α findet man mittels verschachtelter k-fachen Kreuzvalidierung.

Einführung in Support Vector MachinesRegression vs. Klassifikation

Regression Klassifikation

𝒚 ∈ ℝ+:Zielvariable(Target) 𝒚 ∈ {−1,1}+:Zielvariable(Label)

Einführung in Support Vector MachinesKlassifizieren mit einer Entscheidungsfunktion

𝒘𝑻𝒙 + 𝑏 = 0

𝒘𝑻𝒙 + 𝑏 < 0

𝒘𝑻𝒙 + 𝑏 > 0

𝑓 𝒙 = 𝑠𝑔𝑛(𝒘@𝒙 + 𝑏)

Entscheidungsfunktion (Decision Function):

Vorzeichenfunktion (Sign Function):

𝑠𝑔𝑛 𝑧 = Z+1 falls 𝑧 > 00 falls 𝑧 = 0−1 falls 𝑧 < 0

𝒘𝑻𝒙 + 𝑏 = 0

𝒘𝑻𝒙 + 𝑏 = 0?

Falls zwei Klassen mit einer linearen Funktion trennbar sind, gibt es unendlich viele Entscheidungsfunktionen

Einführung in Support Vector MachinesHard-Margin SVM (Vapnik und Chervonenkis, 1974)

Margin= 𝟐𝒘 `

𝒘𝑻𝒙 + 𝑏 = 0

𝒘𝑻𝒙 + 𝑏 = −1

𝒘𝑻𝒙 + 𝑏 = 1

SupportVectors

subject to 𝑦2 𝒘@𝒙2 + 𝑏 ≥ 1, ∀𝑖 ∈ {1,… , 𝑛}

min𝒘,h

12 𝒘 5

Optimierungsproblem mit Nebenbedingung um 𝒘 zu lernen

Je kleiner 𝒘 desto größer die Margin: 𝟐𝒘

Die Nebenbedingung stellt sicher, dass alle Trainingsinstanzen der selben Klasse außerhalb oder auf dem Margin liegen

SupportVectorsEs gibt keine Lösung für nicht vollständig linear

trennbare Probleme

SupportVectorsEs gibt keine Lösung für nicht vollständig linear

trennbare Probleme

Erlaube die Fehlklassifikation von Trainingsinstanzen

Einführung in Support Vector MachinesSoft-Margin SVM: C-SVM (Cortes und Vapnik, 1995)

subject to 𝑦2 𝒘@𝒙2 + 𝑏 ≥ 1 − 𝜉2, ∀𝑖 ∈ 1,… , 𝑛 , 𝜉2 ≥ 0

min𝒘,h,k

12 𝒘 5

5 + 𝐶0𝜉2

𝝃 ist ein Schlupfvariable (Slackvariable): Misst den Grad derFehlklassifikation für jede Trainingsinstanz

𝑪 ∈ ℝ ist ein Regularisierungsparameter: Tradeoff zwischen Maximierungder Margin und Minimierung des Trainingsfehlers

subject to 𝑦2 𝒘@𝒙2 + 𝑏 ≥ 1 − 𝜉2, ∀𝑖 ∈ 1,… , 𝑛 , 𝜉2 ≥ 0

min𝒘,h,k

12 𝒘 5

5 + 𝐶0𝜉2

= min𝒘,h

1𝑛0max(0,1 − 𝑦2(𝒘@𝒙2 + 𝑏))

27&p2+DCqrII

+𝜆2 𝒘 5

+1𝒘@𝒙2 + 𝑏 →

𝜆 =2𝑛𝐶

Kleines 𝑪 führt zu einer großen Margin (à Gefahr von Underfitting)

Großes 𝑪 führt zu einer kleinen Margin (à Gefahr von Overfitting)

Einführung in Support Vector MachinesNicht-Linear-Trennbare Daten

Nicht trennbar mit einer linearen Entscheidungsfunktion

Einführung in Support Vector MachinesTransformation der Daten in einen höherdimensionalen Raum

ℝ5 → ℝ:Transformation in 3-dimensionalen Raum

𝑥&, 𝑥5 → 𝑧&, 𝑧5, 𝑧: ≔ (𝑥&, 𝑥5, 𝑥&5 + 𝑥55)

𝑧&𝑧5

Feature Transformation muss explizit berechnet werden à Unmöglich für unendlich-dimensionale Daten

Einführung in Support Vector MachinesKerntrick

𝑓 𝒙 = 𝑠𝑔𝑛 0𝛼2𝑦2𝒙@𝒙2 + 𝑏+

= 𝑠𝑔𝑛 0𝛼2𝑦2𝜙 𝒙 @𝜙(𝒙2) + 𝑏+

Entscheidungsfunktion hängt von Trainingsinstanzen 𝒙nur über Skalarprodukt 𝜙 𝒙 @𝜙(𝒙2) ab

𝑓 𝒙 = 𝑠𝑔𝑛 0𝛼2𝑦2𝜙 𝒙 @𝜙(𝒙2) + 𝑏+

= 𝑠𝑔𝑛 0𝛼2𝑦2𝑘(𝒙, 𝒙2) + 𝑏+

𝑘(𝒙, 𝒙2) = 𝜙 𝒙 @𝜙(𝒙2)

Ersetzt Skalarprodukt und Transformation durch einen Kern (Kernel)

Entscheidungsfunktion hängt von Trainingsinstanzen 𝒙nur über Skalarprodukt 𝜙 𝒙 @𝜙(𝒙2) ab

Einführung in Support Vector MachinesWarum handelt es sich dabei um einen Trick?

• Wenn man Kernfunktionen verwendet, muss man nichts überden genauen Feature Space wissen. Man benötigt nur eineFunktion, welche ein Ähnlichkeitsmaß zwischen den Featuresberechnet.

• Ein optimaler Kern weist Trainingsinstanzen• einen höheren Ähnlichkeitswert zu, wenn diese zur

gleichen Klasse gehören• einen niedrigeren Ähnlichkeitswert, wenn diese zu

unterschiedlichen Klassen gehören.

Einführung in Support Vector MachinesBeispiele von Kernen

𝑘 𝒙, 𝒙′ = 𝒙@𝒙′

𝑘 𝒙, 𝒙′ = 𝒙@𝒙y + 𝑐 {

𝑘 𝒙, 𝒙′ = exp −12𝜎5 𝒙 − 𝒙y 5

Linearer Kern

Polynomialer Kern

Gaußsche Radiale Basisfunktion (RBF) Kern

Zusammenfassung Kernalized Support Vector MachineWas haben wir gelernt?

• Die Support Vector Machine wird im (klassischen Sinne) beiKlassifikationsproblemen verwendet.

• Die Hard-Margin SVM ist eine überwachte (supervised) Lernmethode,welche sich nur auf vollständig linear-trennbare Probleme anwenden lässt.

• Die Soft-Margin SVM (C-SVM) besitzt einen zusätzlichen Strafterm, umeinen optimalen Tradeoff zwischen der Maximierung der Margin und derMinimierung des Trainingsfehler zu finden.

• Der Kerntrick besteht darin, mittels Kernfunktionen nicht-lineare Problemein einem höherdimensionalen Raum zu lösen, ohne die Punkte explizit indiesen Raum projizieren zu müssen.

AnwendungsbeispielVergleich von Ridge Regression und SVM an einem Anwendungsbeispiel

Neues Medikament für die Therapie eines speziellen

Tumors

Neues Medikament für die Therapie eines speziellen

Tumors

Medikament zeigt eine Wirkung innerhalb von 50 Tagen

Medikament zeigt Wirkung erst nach 50 Tagen, aber mit

erheblichen Nebenwirkungen

Können wir anhand der genetischen Unterschiede (z. B. der Mutationen) zwischen den Patienten die Anzahl der Tage

vorhersagen, ab wann das Medikament eine Wirkung zeigt?

• Anzahl Patienten (Trainingsinstanzen): 400• Anzahl Mutationen (Features): 600

• Zielvariable y: Anzahl der Tage bis Medikament Wirkung zeigt

Können wir anhand der genetischen Unterschiede (z. B. der Mutationen) zwischen den Patienten die Anzahl der Tage

vorhersagen, ab wann das Medikament eine Wirkung zeigt?

Ergebnis Ridge Regression auf Testdaten:

Mittlerer Quadratische Fehler (MSE): 699.56

Ergebnis SVM mit linearen Kern auf Testdaten:

Genauigkeit (Accuracy): 82%

Ergebnis SVM mit RBF Kern auf Testdaten:

Genauigkeit (Accuracy): 93%

Ausblick auf die nächste VorlesungWas kommt als nächstes?

Ridge Regression

• Herleitung der Lösung für das Optimierungsproblem, um dieParameter w zu lernen

• Implementierung des Algorithmus in Python

Support Vector Machine

• Detaillierte Betrachtung des Optimierungsproblems für Hard-MarginSVM

• Detaillierte Betrachtung des Optimierungsproblems für Soft-MarginSVM

• Praktische Evaluierung unterschiedlicher Kerne

Danksagung

Berufungsausschuss Allen Zuhörern und Zuhörerinnen

Iconsmade by Freepik from www.flaticon.com is licensed under CCBY3.0

http://grimmdominik.eu/teaching/

Folien und Code zur Vorlesung

Zusätzliche Referenzen• Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1).

Springer, Berlin: Springer series in statistics. • Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press. • Schölkopf, B., & Smola, A. J. (2002). Learning with kernels: support vector machines,

regularization, optimization, and beyond. MIT press.

https://github.com/dominikgrimm/ridge_and_svm/

„Ridge Regression“ und „Kernalized Support Vector Machines“:...

Documents

Lineare Regression - ChristianHerta

Excel statistik & tests & regression

Robust ridge regression for highŒdimensional data · 2010. 12. 26. · with the Supplemental Material. 2 MM estimators for ridge regression To ensure both robustness and e¢ ciency

Polynomiale Regression - Künstliche neuronale Netze · Inhaltsverzeichnis 1 Polynomiale Regression 2 Die Stufenfunktion 3 Die Basisfunktion 4 Spline-Regression 5 Literatur Marina

4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Regression (zweiter Teil) Jonathan Harrington. 1. Regression und die Locus-Theorie 2. Voraussetzungen für die Durchführung einer Regression 3. Mehrfache

Mehrfache und polynomiale Regression Jonathan Harrington Kriteria für die Durchführung einer Regression Bitte datasets.zip (unter 5.5, Tabellarische Daten)

Stückweise lineare Regression - nadirpoint.denadirpoint.de/Stueckweise_lineare_Regression.pdf · Herleitung und Durchführung der – diskreten, stückweisen, linearen Regression

Lineare Regression

Partial Resurfacing Patella / Central Ridge Patella Implant · 2019-10-15 · Partial Resurfacing Patella / Central Ridge Patella Implant Teilerneuerung der Patella / Zentraler Kamm

Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

Swisscom Dialog Arena 2017 Driving Change · Ridge Regression, Cox & Survival Models, Ensemble Learning 4-Monate Zeit ... Forcasting > Budgeting Simulation > Profitability and Margin

Implantation nach Socket/Ridge Preservation mit

Visual regression test

Die einfache/multiple lineare Regression

Einführung Das Cox-Modell Die Cox-Regression in Stata · Survival 0 100 200 300 400 analysis time Cox-Regression. Einführung Das Cox-Modell Die Cox-Regression in Stata Die Daten

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate

Logistische Regression - - - - - 24. Juni 2011 - bibb.de · PDF fileLogistische Regression • Die logistische Regression ist ein Verfahren zur multivariaten Analyse nicht-metrischer

7 Logistic regression