19
Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelber Datum: 01.07.2002

Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

  • Upload
    eithne

  • View
    24

  • Download
    0

Embed Size (px)

DESCRIPTION

Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002. C XT verwendet „Support Vector Machines“. Machine Learning Verfahren X. Neuronale Netzwerke. Genetische Algorithmen. SUPPORT VECTOR MACHINES. Erstmals Thema 1992 auf der COLT-92. - PowerPoint PPT Presentation

Citation preview

Page 1: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Präsentiert von Torben Pastucham Seminar für Computerlinguistik der Uni Heidelberg

Datum: 01.07.2002

Page 2: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Machine Learning Verfahren X

CXT verwendet „Support Vector Machines“...

Neuronale Netzwerke

Genetische Algorithmen

SUPPORT VECTOR MACHINES

Page 3: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Erstmals Thema 1992 auf der COLT-92

Praxisrelevante Forschung seit 1995

Findet Verwendung in folgenden Gebieten...

Biometrie (z.B. Gesichtserkennung)

Computerlinguistik (z.B. Textkategorisierung)

Allgemein gesprochen ... „Mustererkennung“

Kombination von mehreren bekannten Konzepten

Ermöglicht das Lernen von Klassifizierungen

Page 4: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Eine Einführung in „Support Vector Machines“

SVMs & Chunking

Praxis-Demonstration: „Proof of Concept“

Page 5: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Fand erste Anwendung im „Perceptron“ (1956)

Hyperebene :

0b

Σ

w x

Hyperebene :

0b

Σ

w x

w

x

b

0

0

0

0

b

b

x b w

w x w b

w x

w x

0

0

0

0

b

b

x b w

w x w b

w x

w x

x-b

0

Wenn

dann

1 2

1 2

x x

x x 0

Wenn

dann

1 2

1 2

x x

x x

Page 6: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Es existieren relativ einfache Algorithmen

Algorithmen sind schnell und massendatentauglich

Nur linear separable Klassen können gelernt werdenLösung ist nicht immer ideal

Page 7: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Gesucht ist also

x

y

vx

y

v

x

y

2 2( )R x y

xR

y

v

2 2( )R x y

xR

y

v

R

R

Hyperebene (Punkt)

: n m

Page 8: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

SVM hängen ausschließlich von den Skalarproduktender Trainingsdaten ab

x y ( ) ( ) x y s

n m

( , )K x y

Kernel-Funktion

Page 9: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Ein Beispiel für einen Kernel: Der Polynomial-Kernel2

( , )K x y x y

2

1 1

2 2

x y

x y

2 21 1

1 2 1 22 2

2 2

2 2

x y

x x y y

x y

21

1 22

2

2

x

x x

x

1

2

x

x

( ) x

Page 10: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Polynomialer Kernel

( , )d

K x y x y

Radial Basis Function Kernel (RBF)2

22( , )K e

x y

x y

Sigmoider Kernel

, tanhK x y x y

Page 11: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Nur linear separable Klassen können gelernt werdenLösung ist nicht immer ideal

Page 12: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

: 0b w x

Example bw x

w

< 0 > 0-1

+1

Page 13: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Berechnung der „wirklichen Breite“

1

1

b

b

w x

w x

1w

1

2

1

2

1

w wx x

w w

w x w xw

w

b

b

wx

w

wx

w

Page 14: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Formalisierung der Trainingsdaten

1

, 1 1

i

i iin

x

y oder

x

x

Nun ist folgendes zu erreichen:

w w

1i iy b w xUnter der Bedingung, dass:

Minimiere:

Page 15: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

…diese Funktion

1 , 1

( )l l

i i j i j i ji i j

L y y

α x x

1 , 1

( ) ( , )l l

i i j i j i ji i j

L y y K

α x x

1

0

0, 1,...,

l

i ii

i

y

i l

Maximiere

unter diesen Bedingungen

Page 16: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Für die Lösung gilt…

0

0i

i

liegt auf demRand

für alleanderen

x

x

Page 17: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Die Trainingsdaten sind folgendermaßen aufgebaut

Wort: wi-2 wi-1 wi wi+1 wi+2

POS: ti-2 ti-2 ti-2 ti-2 ti-2

vi

yiz.B.: +1, wenn „wi ist Anfang einer NP“

Und -1, wenn „wi ist nicht Anf. einer NP“

Für die Trainingsdaten wurde der Negr@-Korpus (V2)verwendet. (ca. 10000 Sätze ca. 170000 Wörter)

Page 18: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Was verursacht die Probleme beim Chunken?

Es muss der „passende“ Kernel gefunden werdenEs gilt, alle Parameter ideal zu wählen

Der Algorithmus ist vergleichsweise langsamKomplexität: O(n2) bis O(n3)

Page 19: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Die CSVM-Klasse ist aufgabenunabhängig.Möglichst allgemeine und effiziente Implementierung

IRChunker

CSVM

IRTagger

Output

CPoCDemo