19
Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelber Datum: 01.07.2002

Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Embed Size (px)

Citation preview

Page 1: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Präsentiert von Torben Pastucham Seminar für Computerlinguistik der Uni Heidelberg

Datum: 01.07.2002

Page 2: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Machine Learning Verfahren X

CXT verwendet „Support Vector Machines“...

Neuronale Netzwerke

Genetische Algorithmen

SUPPORT VECTOR MACHINES

Page 3: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Erstmals Thema 1992 auf der COLT-92

Praxisrelevante Forschung seit 1995

Findet Verwendung in folgenden Gebieten...

Biometrie (z.B. Gesichtserkennung)

Computerlinguistik (z.B. Textkategorisierung)

Allgemein gesprochen ... „Mustererkennung“

Kombination von mehreren bekannten Konzepten

Ermöglicht das Lernen von Klassifizierungen

Page 4: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Eine Einführung in „Support Vector Machines“

SVMs & Chunking

Praxis-Demonstration: „Proof of Concept“

Page 5: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Fand erste Anwendung im „Perceptron“ (1956)

Hyperebene :

0b

Σ

w x

Hyperebene :

0b

Σ

w x

w

x

b

0

0

0

0

b

b

x b w

w x w b

w x

w x

0

0

0

0

b

b

x b w

w x w b

w x

w x

x-b

0

Wenn

dann

1 2

1 2

x x

x x 0

Wenn

dann

1 2

1 2

x x

x x

Page 6: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Es existieren relativ einfache Algorithmen

Algorithmen sind schnell und massendatentauglich

Nur linear separable Klassen können gelernt werdenLösung ist nicht immer ideal

Page 7: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Gesucht ist also

x

y

vx

y

v

x

y

2 2( )R x y

xR

y

v

2 2( )R x y

xR

y

v

R

R

Hyperebene (Punkt)

: n m

Page 8: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

SVM hängen ausschließlich von den Skalarproduktender Trainingsdaten ab

x y ( ) ( ) x y s

n m

( , )K x y

Kernel-Funktion

Page 9: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Ein Beispiel für einen Kernel: Der Polynomial-Kernel2

( , )K x y x y

2

1 1

2 2

x y

x y

2 21 1

1 2 1 22 2

2 2

2 2

x y

x x y y

x y

21

1 22

2

2

x

x x

x

1

2

x

x

( ) x

Page 10: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Polynomialer Kernel

( , )d

K x y x y

Radial Basis Function Kernel (RBF)2

22( , )K e

x y

x y

Sigmoider Kernel

, tanhK x y x y

Page 11: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Nur linear separable Klassen können gelernt werdenLösung ist nicht immer ideal

Page 12: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

: 0b w x

Example bw x

w

< 0 > 0-1

+1

Page 13: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Berechnung der „wirklichen Breite“

1

1

b

b

w x

w x

1w

1

2

1

2

1

w wx x

w w

w x w xw

w

b

b

wx

w

wx

w

Page 14: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Formalisierung der Trainingsdaten

1

, 1 1

i

i iin

x

y oder

x

x

Nun ist folgendes zu erreichen:

w w

1i iy b w xUnter der Bedingung, dass:

Minimiere:

Page 15: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

…diese Funktion

1 , 1

( )l l

i i j i j i ji i j

L y y

α x x

1 , 1

( ) ( , )l l

i i j i j i ji i j

L y y K

α x x

1

0

0, 1,...,

l

i ii

i

y

i l

Maximiere

unter diesen Bedingungen

Page 16: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Für die Lösung gilt…

0

0i

i

liegt auf demRand

für alleanderen

x

x

Page 17: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Die Trainingsdaten sind folgendermaßen aufgebaut

Wort: wi-2 wi-1 wi wi+1 wi+2

POS: ti-2 ti-2 ti-2 ti-2 ti-2

vi

yiz.B.: +1, wenn „wi ist Anfang einer NP“

Und -1, wenn „wi ist nicht Anf. einer NP“

Für die Trainingsdaten wurde der Negr@-Korpus (V2)verwendet. (ca. 10000 Sätze ca. 170000 Wörter)

Page 18: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Was verursacht die Probleme beim Chunken?

Es muss der „passende“ Kernel gefunden werdenEs gilt, alle Parameter ideal zu wählen

Der Algorithmus ist vergleichsweise langsamKomplexität: O(n2) bis O(n3)

Page 19: Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002

Die CSVM-Klasse ist aufgabenunabhängig.Möglichst allgemeine und effiziente Implementierung

IRChunker

CSVM

IRTagger

Output

CPoCDemo