Support Vector Machines in a Nutshell - esp.phonetik.uni ... · „Echte“ Mehrklassen-SVM…...

Support Vector Machines

... in a Nutshell

Björn Schuller Dr.-Ing. cand. habil.

Lehrstuhl für Mensch-Maschine-Kommunikation

Technische Universität München

Freitag, 1. Juli 2011, 10:30 – 12:00

Promotionsprogramm "Empirische Sprachverarbeitung"

Institut für Phonetik und Sprachverarbeitung, Ludwig-Maximilians-Universität München

Einleitung

Outline

Björn Schuller 2

SVM & SVR

Praxis Diskussion

Einleitung

• Audioklassifikation

Überblick

Einleitung

Björn Schuller 4

Björn Schuller 5

Intonation

(Pitch, …)

Intensity

(Enegry, Teager, …)

Linear Predicition

(LPCC, PLP, ...)

Cepstral Coefficients

(MFCC)

Formants

(Amplitude, Position, …)

Spectrum

(MFB, NMF, Roll-Off, ...)

TF-Transformation

(Wavelets, Gabor, …)

Harmonicity

(HNR, NHR, ...)

Pertubation

(Jitter, Shimmer, …)

Linguistics

(Phonemes, Words, …)

Non-Linguistics

(Laughter, Sighs, …)

Derving

(raw LLD,

deltas,

regression

coefficients,

correlation

coefficients,

Deriving

Stemmed,

Semantic-,

Tagging, …)

Extremes

(min, max, range, …)

(arithmetic, absolute, …)

Percentiles

(quartiles, ranges, …)

Higher Moments

(std. dev., kurtosis, …)

(number, distances, …)

Segments

(number, duration, …)

Regression

(coefficients, error, …)

Spectral

(DCT coefficients, …)

Temporal

(durations, positions, …)

Vector Space Modelling

(bag-of-words, …)

Look-Up

(word lists, concepts, …)

g, norm

okeniz

Deriving

functionals,

hierarchical,

cross-LLD,

cross-

chunking,

contextual,

Statistical

(salience, info gain, …)

Disfluencies

(Pauses, …)

lative,

ctic, se

mantic, em

otiona

Low-Level-Descriptors

Functionals

g, norm

Acoustics

Linguistics

Anforderungen Klassifikation

Adäquate Modellierung

Dynamische / statische Klassifikation

Daten- / wissensgetrieben

Umgang mit fehlenden Werten

Umgang mit Unsicherheiten

Trainingsstabilität

Modell- / instanzbasiert

Transparenz

Optimale Erkennungsleistung

Lösbarkeit nichtlinearer Probleme

Maximierte Diskriminativität der Klassen

Priorisierung von Merkmalen

Toleranz ggü. Dimensionserhöhung

Nachtrainierbarkeit

Hohe Verallgemeinerungsfähigkeit

Adaption an Komplexität

Einsetzbarkeit diverser Merkmalsets

Anforderungen Klassifikation

Effizienz

Echtzeitfähigkeit in der Erkennung

Kurze Trainingszeit

Geringer Bedarf an Lernbeispielen

Ökonomische Faktoren

Geringer Bedarf an Rechenleistung

Geringer Bedarf an Speicher

Günstige Umsetzbarkeit in Hardware

Merkmalsreduktion ohne Trainingsbedarf

Optimale Integration

Angabe über Sicherheit der Klassifikation

Klassenbezogene Sicherheit

Berücksichtigung von Eingangsunsicherheiten

• Dynamische Programmierung

Multidimensionaler-DTW

• Dynamische Bayessche Netze

Hidden Markov Modelle

• Hidden Conditional Random Fields

Dynamische Klassifikation

S1 S2 SN

a1,1 aN,Na2,2

a1,2 a2,Na0,1

a0,2 a1,N

S0 SN+1

aN,N+1

1, ,..., NA b b

1( ) ( )

1, , e

Ti ix m C x m

g x m C

• Lazy Learners

Abstandsklassifikatoren

• Stochastische Klassifikatoren

Gaußsche Mixtur Modelle

(Diskriminative) Bayessche Netze

• Funktionen

Support-Vektor-Maschinen/Regression

(Long-Short-Term-Memory) Rekurrente Netze

Conditional Random Fields

• Bäume

Random Forests

Statische Klassifikation

Eingangsschicht Verborgene Schicht Ausgangsschicht

X1 X2 XN

pXNpX2pX1

Standardabw.

GrundfrequenzNeutral

Freude

Neutral

Rel. Min.

Grundfrequenz

Standardabw.

Grundfrequenz

Rel. Pos. Min.

Grundfrequenz

>-31.54 Hz?

>20.45 Hz?

Freude Neutral

Rel. Max.

Grundfrequenz

>85% ?

>43.05 Hz?

>14.81 Hz?

r l i l i

d x x x x

,argmin ,e ld x x

H*(w*,b*)

• Dynamisch/Statisch

Tandem

Hybrid

• Metalernen

Ensembles (Boosting, Bagging, …)

Stacking

Metaklassifikation

ˆ ˆ ˆ ˆE E E E

Parametrierung

SVM & SVR

• Hintergrund

Vapnik 1995

Analogon zur Elektrostatik:

Trainingsbeispiel: Geladener Leiter an bestimmten Ort im Raum

Entscheidungsfkt.: Elektrostatische Potentialfunktion

Lernzielfunktion: Coulomb‘sche Energie

Support-Vektor-Maschinen

Björn Schuller 13

• Prinzip

Linearer Klassifikator

(ähnlich Perzeptron mit linearer Aktivierungsfunktion)

Kombiniert mit nichtlinearer Abbildung in höherdim. Entscheidungsraum

Linearer Klassifikator dabei aus Untermenge der Lernbeispiele

Sogenannte Stützvektoren

Dadurch geringe Gefahr der Überadaption an die Lernmenge

Auswahl Stützvektoren durch klassisches quadr. Optimierungsverfahren

Björn Schuller 14

• Prinzip

Zunächst: Trennung von 2 Klassen

Hyperbene: Normalenvektor und Bias

So dass:

Björn Schuller 15

• Prinzip

Vorzeichenbehafteter Abstand zur Hyperebene:

Trennbreite (Margin of Separation):

Ziel: Maximale Diskriminativität, d.h., max. Trennbreite

Instanzen, die Hyperebene am nächsten sind, sind Stützvektoren

Abstand Stützvektoren: Korridorbreite:

Björn Schuller 16

Björn Schuller 17

• Prinzip

Statt Maximierung der Korridorbreite Minimierung von

(streng konvex, eindeutiges Minimum)

Daraus lineare Randbedingungen für Optimierung:

Lösung des Randwertproblems u. A. mit Langrange‘schen Multiplikatoren

Im Allgemeinen keine Hyperbene zur fehlerfreien Trennung

Schlupfvariable:

(Slack-Variable)

(Soft Margin)

Björn Schuller 18

• Prinzip

Mit G als Fehlergewichtfaktor nun zu minimieren (primales Problem):

Äquivalent zu dualem Problem der Maximierung:

Mit Nebenbedingungen:

Björn Schuller 19

• Prinzip

Hyperebene nun definiert durch:

: Index des Vektors mit größtem

C: frei bestimmbar

Einführung der Gewichtskoeff.: Eliminierung der Schlupfvariablen

Normalenvektor ist gewichtete Summe der Trainingsbeispiele

Stützvektoren sind diejenigen Vektoren mit

Praxis: Häufig Sequentielle Minimale Optimierung (SMO) zur Lösung

Björn Schuller 20

• Prinzip

Klassifikation

Bisher: nur linear trennbare Zweiklassenprobleme

Björn Schuller 21

• Kerneltrick

Nichtlineare Transformation in höherdimensionalen Raum

Dort linear trennbar („hoffentlich“), Beispiel:

Björn Schuller 22

• Kerneltrick

Normalenvektor:

Entscheidungsfunktion:

Transformation nicht zur Parameterschätzung/Klassifikation expl. benötigt

Stattdessen Kernelfunktion

(pos. semidefinit, symmetrisch, Cauchy-Schwarz-Ungleichung erfüllen)

Björn Schuller 23

• Kerneltrick

Beste Kernelfunktion nur empirisch

Polynom-Kernel (Polynomordnung):

Gauß-Kernel (Std.abw., radiale Basisfunktion):

Sigmoid-Kernel (Verstärkung, Offset):

String-Kernel, etc.

Björn Schuller 24

• Kerneltrick

Kernelfunktion statt Transformation erniedrigt Rechenaufwand erheblich

Für hochdim. Probleme nutzbar

Beispiel: Polynom Grad p

Zahl zu berechnender Terme

Polynom-Kernel unabh. von p

Zahl zu berechnender Terme ca.

Björn Schuller 25

• Mehrklassenklassifikation

L: # Entscheidungen, M: # Klassen

Entscheidungsregeln:

1-vs-alle:

1-vs-1:

Vergleich mit jeder anderen Klasse positiv

oder Mehrheitsentscheid

½-vs-½ (Bäume) im Mittel:

„Echte“ Mehrklassen-SVM…

Björn Schuller 26

• Prinzip

Grundsätzlich jeder Klassifikator in Regressor wandelbar:

Regression durch Diskretisierung

Ausgang lineare Regression

Möglichst flache Abweichung

Schlupfvariablen

Langrage‘sche Multiplikatoren

Stützvektoren

Kerneltrick

Support-Vektor-Regression

Björn Schuller 27

• Relvance-Vektor-Maschinen (RVM)

Probabilistische Klassifikation

Äquivalent zu Gauß‘schem Prozess mit Kovarianz

Meist Gauß‘scher Kernel

Bayes‘sche Formulierung vermeidet Parametersuche

EM-ähnlicher Lernalgorithmus

Anders als mit SMO keine Gewährleistung globalen Optimums

• Hybride Ansätze

z.B. SVM-HMM, SVM-DBN, SVM-GM (Tandem, Hybrid)

Hybride Ensembles: Stacking, StackingC, Voting, etc.

Support-Vektor-Varianten

Björn Schuller 28

• GMM Supervektoren

Stacking der Mittelwerte der Gauß‘schen-Mixtur-Modelle als Merkmale

GMM Universelles-Background-Modell (UBM), z.B. mit EM

MAP anwendbar

Support-Vektor-Varianten

Björn Schuller 29

Praxis

• SVMlight

http://svmlight.joachims.org/

Fast optimization algorithm, works on very large datasets, efficient leave-one-out cross-validation.

Source: C++, binaries: Linux, Windows, Cygwin, Solaris

Kernels: polynomial, radial basis function, and neural (tanh)

• SVMstruct

http://svmlight.joachims.org/svm_struct.html

model complex (multivariate) output data y, such as trees, sequences, or sets. Can be applied to natural language parsing, and Markov models for part-of-speech tagging, multi-class classification

SVM Software

Björn Schuller 31

• mySVM

http://www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/index.html

Source: C++, binaries: Windows

Kernels: linear, polynomial, radial basis function, neural (tanh), anova

• JmySVM

http://www-ai.cs.uni-dortmund.de/SOFTWARE/YALE/index.html

part of YaLE (Yet Another Learning Environment)/Rapid Miner

Source: Java

• Weka

http://www.cs.waikato.ac.nz/ml/weka/

Collection of machine learning algorithms for data mining tasks

Source: Java

SVM Software

Björn Schuller 32

• LIBSVM

http://www.csie.ntu.edu.tw/~cjlin/libsvm/

Multi-class classification, weighted SVM for unbalanced data, cross-validation and automatic model selection

Source: C++, Java

Interfaces for Python, R, Splus, MATLAB, Perl, Ruby, and LabVIEW.

Kernels: linear, polynomial, radial basis function, and neural (tanh)

• SVMTorch

http://www.idiap.ch/learning/SVMTorch.html

Part of the Torch machine learning library

Source: C++, Binaries: Linux, Solaris

SVM Software

Björn Schuller 33

• SVM in R

http://cran.r-project.org/src/contrib/Descriptions/e1071.html

C-classification, n-classification, e-regression, and n-regression

Kernels: linear, polynomial, radial basis, neural (tanh)

• BSVM

http://www.csie.ntu.edu.tw/~cjlin/bsvm/

Two implementations of multi-class classification

Source: UNIX/Linux, binaries: Windows

• M-SVM

http://www.loria.fr/~guermeur/

Multi-class SVM implementation

Source: C

SVM Software

Björn Schuller 34

• MATLAB SVM Toolbox

http://www.isis.ecs.soton.ac.uk/resources/svminfo/

Kernels: linear, polynomial, Gaussian radial basis function, exponential radial basis function, neural (tanh), Fourier series, spline, B spline

• TinySVM

http://chasen.org/~taku/software/TinySVM/

sparse vector representation, handles several ten-thousands of training examples, hundred-thousands of feature dimensions

Source: C++ Linux, binary: Windows

• SvmFu

http://five-percent-nation.mit.edu/SvmFu/

Source: C++

Kernels: linear, polynomial, Gaussian radial basis function

SVM Software

Björn Schuller 35

• Gini-SVM

• Gist

• GPDT

• HeroSvm

• LearnSC

• MATLAB SVM Toolbox

• OSU SVM Classifier Matlab Toolbox

• SimpleSVM Toolbox (Matlab)

• SmartLab, Spider (Matlab)

• SVMsequel

• SVM Toolbox (Matlab)

• Tree Kernels

• Und viele mehr…

SVM Software

Björn Schuller 36

• Partitionierung

Ausbalancierung (z.B. Hochsampling, SMOTE)

J-fache Kreuzvalidierung (stratifizieren)

Evaluierung

Björn Schuller 37

• Partitionierung

tr: Training (z.B. 40%)

VA: Validierung (z.B. 30%)

TE: Test (z.B. 10-30%)

Evaluierung

Björn Schuller 38

• Partitionierung

Zusätzliche Unabhängigkeit: Leave-One-Speaker/Speaker Group-Out

Reproduzierbarkeit wahren

Transparenz wahren

Keine Vorselektion

Cross-Corpus

Evaluierung

Björn Schuller 39

• Maße

Accuracy / Recall:

Unweighted Average Recall:

True / False Positives:

Precision:

Evaluierung

Björn Schuller 40

• Maße

F-Measure:

True / False Negatives:

Konfusionen:

Evaluierung

Björn Schuller 41

• Maße

Aus Konfusionen:

Evaluierung

Björn Schuller 42

• Maße für binäre Entscheidungen

Receiver-Operating-Curve (ROC)

Equal-Error-Rate (EER)

Area-Under-Curve (AUC)

• Maße für kont. Entscheidungen

Cross-Correlation (CC)

Mean-Linear-Error (MLE) /

Mena-Absolute-Error (MAE)

Mean-Square-Error (MSE)

Evaluierung

Björn Schuller 43

• Wahl Kernel und Parameter-Optimierung

Multiple-Kernel-Learning (MKL): Lernen des optimalen Kernels

Gewichtete Summierung der Kernel äquiv. Merkmalsraumkonkatinierung

Grid-Search, etc.

• Große Datenmenge

Sukzessives Einlesen und Trainieren

• Hohe Dimensionalität

Merkmalsauswahl

PCA / LDA, etc.

• (Geringe) Trainingsinstabilität

Bagging, Boosting, etc.

Probleme

Björn Schuller 44

Diskussion

• Konklusion

Generalisierte lineare Klassifikatoren

Erweiterung des Perzeptrons

Diskriminativität: Maximum-Margin-Klassifikator

Björn Schuller 46

• Vorteile

Hohe Dimensionen behandelbar

Gute Generalisierung

Diskriminativer Ansatz

Inhärente Instanzselektion

• Nachteile

Abhängig von Parameterwahl: Kernel, Kernelparam., Soft-Margin-Param.

Unkalibrierte Klassenzugehörigkeitswahrscheinlichkeiten

Kein Speicher (wie etwa RNN oder (B)LSTM, etc.)

Keine dynamische Klassifikation (wie HMM oder DBN, nur Multi-Instanz-Lernen)

Keine Merkmalsselektion (SVM-SFFS, etc.)

Björn Schuller 47

• Ausblick

Transduktive SVM: Erlauben semi-überwachtes Lernen

Strukturierte SVM: Multi-label und stukturierte Label (Bäume)

Least-Square SVM: Lösen Satzes linearer Gleichungen anstelle konvexer quadr. Programmierung

Multiple-Instanzen-SVM: „Bag-Of-Frames“:

Bag „-“ wenn alle Frames „-“

Bag „+“ falls >=1 Frame „+“

Björn Schuller 48

• Vapnik et al.

Vapnik, V.; Cortes, C.: Support vector networks,Machine Learning 20 (1995), S. 273-297.

• Schölkopf et al.

Schölkopf, B.; Smola, A.: Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond (Adaptive Computation and Machine Learning), 2002, Cambridge, MA: MIT Press, ISBN 0-262-19475-9.

Literatur

Björn Schuller 49

Björn Schuller

Danke.

http://www.openaudio.eu

Support Vector Machines in a Nutshell - esp.phonetik.uni ... · „Echte“ Mehrklassen-SVM…...

Documents

6. Bayes-Klassifikation - uni-forst.gwdg.dewkurth/cb/html/gdm_v06.pdf · Der "naive Bayes-Klassifikator" (Böhm 2003) formale Def.: (Schukat-Talamazzini 2002) ... naiven Bayes-Klassifikator

PerioScan- Ein neuartiges Dentalgerät mit Fuzzy-Klassifikator · 2019-12-20 · PerioScan- Ein neuartiges Dentalgerät mit Fuzzy-Klassifikator Jens Strackeljan(1), Bernd Oehme(2),

medi Patella tendon support · medi Patella tendon support Zweckbestimmung medi Patella tendon support ist eine Patella-sehnenbandage. Das Produkt ist ausschließlich zur orthetischen

Sachwortverzeichnis - methodensammlung-bvl.de · Seite 2 März 2019 Sachwortverzeichnis Amtl. Sammlung § 64 LFGB Aflatoxin M1 DC (Schuller-Methode) Milch Milchpulver Käse Säuglingsnahrung

BETRIEB | SUPPORT | HOSTING

A.D. Roth, R. Biffi, R. Stupp, R. Morant, J.C. Schuller, F. De Braud, O. Huber, N. Fazio

eoda | R-Support

PerioScan- Ein neuartiges Dentalgerät mit Fuzzy-Klassifikator · verfügt und damit als Kombinationsgerät zur Diagnose und Therapie eingesetzt werden kann. Es werden neben den medizinischen

gynpraxis-schuller.chgynpraxis-schuller.ch/.../11/Sectio-caesarea_Aktuelle-Kontroversen.pdfR.-Ch. Schuller, Daniel Surbek Sectio caesarea: Aktuelle Kontroversen Es gibt weitere verschiedene

Maria Schuller · 2014. 2. 12. · Folgen der Unterdrückung ... (Primärstadium Oder Lues l) Zweites Stadium ... Drittes Stadium (Tertiärstadium Oder Lues 3 = Spätsyphilis) 128

SE-S10 - Support

5. Klassifikation · 5.2 Optimaler Bayes-Klassifikator Grundbegriffe • Sei H = {h 1, . . ., h l} eine Menge unabhängiger Hypothesen. •Sei o ein zu klassifizierendes Objekt. •Der

METHODEN DES DATA MINING FABIAN GREUEL - Foswiki · Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator Beispiel

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking Dieter Schuller Seminar aus maschinellem Lernen Fachbereich 20 Informatik Knowledge Engineering

Sicherer Remote Support über das Internet mit UltraVNCknowhow.euro-dom.info/uploads/Sicherer_RemoteSupport_mit_UltraVN… · Remote Support mit UltraVNC Vers. 1 Sicherer Remote Support

BIG BAND WORKSHOP - brochures.austria.infobrochures.austria.info/pdfs/0000/6542/brassworkshop2015_web.pdf · Gunther Schuller (Klavier, Keys / Organ & Rhythmsection) Ausbildung: Jazz

COMPAREX AG BESCHAFFUNG UND LIZENZIERUNG · Oracle Premier Support Oracle Basic Support Oracle Network Support Premier backports Lifetime support 24x7 support service via My Oracle

Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli

Decision Support Systems Entscheidungsunterstützungssystem€¦ · Decision Support Systems Beispielanwendung Unsupervised Learning Supervised LearningZusammenfassungLiteratur DecisionSupportSystems

Romano Guardini - Der Herr · Romano Guardini Werke Herausgegeben von Franz Henrich und Florian Schuller im Auftrag des Sachverständigengremiums für den literarischen Nachlaß Romano