Der Viterbi-Algorithmus im Part-of-Speech...

11.05.2002 1Karin Haenelt, Viterbi-Algorithmus

Der Viterbi-Algorithmus im Part-of-Speech Tagging

Kursfolien

Karin Haenelt

Letzte Änderung 18.07.2002

Finden der besten Pfadsequenzder verborgenen Zuständein einem Hidden Markov Modelzu einer gegebenen Beobachtung

Beispielanwendungen

• Sprachverarbeitung– Part-of-Speech Tagging– Worterkennung

– …

• Kryptographie

• …

SjiaA ij ∈= ,,

Hidden Markov Model

Formal spezifiziert durch Fünf-Tupel

Menge der Zustände

Ausgabe-Alphabet

Wahrscheinlichkeitender Startzustände

Wahrscheinlichkeitender Zustandsübergänge

Wahrscheinlichkeitender Symbolemissionen

Manning/Schütze, 2000: 326

( )BAKS ,,,, Π

Sii ∈=Π ,π

,..., 1 NssS =,...,1,..., 1 MkkK M ==

KkSjibB ijk ∈∈= ,,,

HMM [Aufgabe]:Beste Pfadsequenz finden

gegeben eine Sequenz von Beobachtungen

ein Modell

AdjeAuxV KopVNomn Part g‘schicktwerden wir

AuxVKopVNomnPart

Adje.1 .1 .4 .2 .2 0 0.2 .3.2 .2 .2 .2 0 .3 0.2 .2.2 .2 .3 .1 0 .5 0.2 .1.4 .3 .1 .1 0 0 .2.1 .3.1 .2 .1 .3 .4 0 0.3 .1

O=(wir,werden,geschickt)

gesucht die wahrscheinlichste Pfadsequenz

π),,( Π= BAµ

),...,( 1 TooO =

)|(maxarg µOPx)|,,( µgeschicktwerdenwirP

HMM [Aufgabe]:Beste Pfadsequenz finden

Modellvariante: mit Startsymbol

statt mit Tabelle der Startwahrscheinlichkeiten)

AdjeAuxV KopVNomn Part g‘schicktwerden wir

AuxVKopVNomnPart

Adje.1 .1 .4 .2 .2 0 0.2.2 .2 .2 .2 0 .3 0.2.2 .2 .3 .1 0 .5 0.2.4 .3 .1 .1 0 0 .2.1.1 .2 .1 .3 .4 0 0.3.2 .1 .3 .1 0 0 0.3

.000001

000000Ω

Für 3 Beobachtungen und 5 Kategorien 53 Schritte

→Ω → →

→→

Beispiel

ineffiziente Suche der besten Lösung

.3 x .2 x .3 x .5 x .2 x .2 =0.000360

.3 x .2 x .4 x .3 x .2 x .4 =0.000576

Viterbi-Lösung

wir|Adje

wir|Nomn

wir|AuxV

wir|KopV

wir|Part

werden|Adje

werden|Nomn

werden|AuxV

werden|KopV

werden|Part

geschickt|Adje

geschickt|Nomn

geschickt|AuxV

geschickt|KopV

geschickt|Part

• Kompakte Darstellung der Pfade als Gitter (Trellis)• Wiederverwendung partieller Ergebnisse statt

Neuberechnung• Speichert für jeden Zeitpunkt t

– die Wahrscheinlichkeit des wahrscheinlichsten Pfades, der zu einem Knoten führt

– den Vorgängerknoten auf diesem Pfad

Daten 1: Wahrscheinlichkeit des wahrscheinlichsten Pfades

wir|Nomn

werden|Adje

werden|Nomn

werden|AuxVwerden|KopV

werden|Part0.06

geschickt|Adje

geschickt|Nomn

geschickt|AuxVgeschickt|KopV

geschickt|Part

00.00720.00900

0.0003600000.000576

wir|KopV 0

wir|Part 0

wir|AuxV 0wir|Adje 0

wir|Nomn Knoten

>0 Wahrscheinlichkeit des wahrscheinlichsten Pfades

0 unwahrscheinlicher Pfad

Daten 2: Vorgängerknoten auf wahrscheinlichstem Pfad

wir|Nomn

werden|Adje

werden|Nomn

werden|Part

geschickt|Adje

geschickt|Nomn

geschickt|Part

0NomnNomn00

KopV000AuxV

wir|KopV 0

wir|Part 0

wir|Nomn Knoten

Vorgänger-Knoten auf wahrscheinlichstem Pfad

0 Vorgänger-Knoten auf wahrscheinlichstem Pfadbei P(Xi) = 0 (= unwahrscheinlicher Pfad)

Daten 1 und 2:Übersicht

wir|Nomn

werden|Adje

werden|Nomn

werden|Part0.06

geschickt|Adje

geschickt|Nomn

geschickt|Part

00.00720.00900

0.0003600000.000576

wir|Nomn

werden|Adje

werden|Nomn

werden|Part

geschickt|Adje

geschickt|Nomn

geschickt|Part

0NomnNomn00

KopV000AuxV

wir|KopV 0

wir|Part 0

wir|KopV 0

wir|Part 0

Ω|.Ω

Tracing (1): Initialisierung

Setzen der Startknoten für Verfolgung - Wahrscheinlichkeit der wahrscheinlichsten Pfade- Vorgängerknoten auf den wahrscheinlichsten Pfaden

Tracing (2): 1. Iteration

wir|Nomn0.06

wir|Nomn

wir|KopV 0

wir|Part 0

wir|KopV 0

wir|Part 0

Berechnung der Wahrscheinlichkeit des wahrscheinlichsten Pfades

Ermittlung des Vorgängerknotens auf dem wahrscheinlichsten Pfad

δFunktion

ψFunktion

wir|Nomn

werden|Adje

werden|Nomn

werden|Part0.06

00.00720.00900

wir|Nomn

werden|Adje

werden|Nomn

werden|Part

0NomnNomn00

Ω|.Ω

wir|Nomn

werden|Adje

werden|Nomn

werden|Part0.06

geschickt|Adje

geschickt|Nomn

geschickt|Part

00.00720.00900

0.0003600000.000576

wir|Nomn

werden|Adje

werden|Nomn

werden|Part

geschickt|Adje

geschickt|Nomn

geschickt|Part

0NomnNomn00

KopV000AuxV

ΩΩ|.

Tracing (5): Terminierung und Pfadausgabe

wir|Nomn

werden|Adje

werden|Nomn

werden|Part0.06

geschickt|Adje

geschickt|Nomn

geschickt|Part

00.00720.00900

0.0003600000.000576

wir|Nomn

werden|Adje

werden|Nomn

werden|Part

geschickt|Adje

geschickt|Nomn

geschickt|Part

0NomnNomn00

KopV000AuxV

Spezifikation des Algorithmus1 comment: Given: a sentence of length n2 comment: Initialization345 comment: Induction6 for i := 1 to n step 1 do7 for all tags tj do8910 end11 end12 comment: Termination and path-readout1314 for j := n to 1 step -1 do1516 end17

0.1)(1 =ΩδΩ≠= tt for 0.0)(1δ

)]|()|()([max:)( 111kjj

i ttPtwPtt ××= +≤≤+ δδ)]|()|()([maxarg:)( 111kjj

i ttPtwPtt ××= +≤≤+ δψ

)(maxarg 111 jX nTjn +≤≤+ = δ

)( 11 ++= jjj XX ψ

)(max),...,( 111j

nTjn tXXP +≤≤= δ

Funktion

berechnet für jeden Punkt im Gitter (trellis)die Wahrscheinlichkeit des wahrscheinlichsten Pfades,der zu diesem Knoten führt

)]|()|()([max:)( 111kjj

i ttPtwPtt ××= +≤≤+ δδ

Funktion undDatenstruktur SEQSCORE

j 1 2 3 4 5 6 i Adje AuxV KopV Nomn Part Ω 1 . 0.0 0.0 0.0 0.0 0.0 1.0 2 wir 0.0 0.0 0.0 0.06 0.0 0.0 3 werden 0.0 0.0072 0.009 0.0 0.0 0.0 4 geschickt 0.000360 0.0 0.0 0.0 0.000576 0.0

SEQSCORE(j,i): Speicherung der Ergebnisse von

wir|Nomn

werden|Adje

werden|Nomn

werden|Part0.06

geschickt|Adje

geschickt|Nomn

geschickt|Part

00.00720.00900

0.0003600000.000576

wir|KopV 0

wir|Part 0

Funktion

ermittelt für jeden Punkt im Gitter (trellis)den Vorgängerknoten auf dem wahrscheinlichsten Pfad,der zu diesem Knoten führt

)]|()|()([maxarg:)( 111kjj

Funktion undDatenstruktur BACKPTR

BACKPTR(j,i): Speicherung der Ergebnisse von ψ

wir|Nomn

werden|Adje

werden|Nomn

werden|Part

geschickt|Adje

geschickt|Nomn

geschickt|Part

0NomnNomn00

KopV000AuxV

wir|KopV 0

wir|Part 0

j 1 2 3 4 5 6 i Adje AuxV KopV Nomn Part Ω 1 . 2 wir 0 0 0 6 0 0 3 werden 0 4 4 0 0 0 4 geschickt 3 0 0 0 2 0

Ω|.Ω

DatenstrukturenSEQSCORE und BACKPTR

BACKPTR(j,i): Speicherung der Ergebnisse von

Initialisierung

j 1 2 3 4 5 6 i Adje AuxV KopV Nomn Part Ω 1 . 0.0 0.0 0.0 0.0 0.0 1.0

0.1)(1 =ΩδΩ≠= tt for 0.0)(1δ

Berechnung: Funktion

(tj) := max 1≤k≤T )([ ki tδ )|( 1

ji twP +× )|( kj ttP

Vorgängerknoten aktueller Knoten max. Prob. Emissions-Prob. Transition-Prob. Adje - Adje )(1 Adjeδ 0.0 P(wir|Adje) 0.0 P(Adje|Adje) 0.0

- AuxV )(1 AuxVδ 0.0 0.0 P(Adje|AuxV) 0.2

- KopV )(1 KopVδ 0.0 0.0 P(Adje|KopV) 0.2

- Nomn )(1 Nomnδ 0.0 0.0 P(Adje|Nomn) 0.1

- Part )(1 Partδ 0.0 0.0 P(Adje|Part) 0.3

- Ω )(1 Ωδ 1.0 0.0 P(Adje|Ω ) 0.2

… - … … … P(wir|Auxv) 0.0 … … Nomn - Adje )(1 Adjeδ 0.0 P(wir|Nomn) 0.2 P(Nomn|Adje) 0.4

- AuxV )(1 AuxVδ 0.0 0.2 P(Nomn|AuxV) 0.2

- KopV )(1 KopVδ 0.0 0.2 P(Nomn|KopV) 0.3

- Nomn )(1 Nomnδ 0.0 0.2 P(Nomn|Nomn) 0.1

- Part )(1 Partδ 0.0 0.2 P(Nomn|Part) 0.1

0.06 Ω )(1 Ωδ 1.0 0.2 P(Nomn|Ω ) 0.3

Wort2 = „wir“

δ)]|( )|( )([max:)( 111kjj

i ttPtwPtt ××= +≤≤+ δδ

)]|( )|( )([maxarg:)( 111kjj

Berechnung: Funktion

(tj) := max 1≤k≤T )([ ki tδ )|( 1

ji twP +× )|( kj ttP

Vorgängerknoten aktueller Knoten max. Prob. Emissions-Prob. Transition-Prob. Adje - Adje )(1 Adjeδ 0.0 P(wir|Adje) 0.0 P(Adje|Adje) 0.0

- AuxV )(1 AuxVδ 0.0 0.0 P(Adje|AuxV) 0.2

- KopV )(1 KopVδ 0.0 0.0 P(Adje|KopV) 0.2

- Nomn )(1 Nomnδ 0.0 0.0 P(Adje|Nomn) 0.1

- Part )(1 Partδ 0.0 0.0 P(Adje|Part) 0.3

- Ω )(1 Ωδ 1.0 0.0 P(Adje|Ω ) 0.2

… - … … … P(wir|Auxv) 0.0 … … Nomn - Adje )(1 Adjeδ 0.0 P(wir|Nomn) 0.2 P(Nomn|Adje) 0.4

- AuxV )(1 AuxVδ 0.0 0.2 P(Nomn|AuxV) 0.2

- KopV )(1 KopVδ 0.0 0.2 P(Nomn|KopV) 0.3

- Nomn )(1 Nomnδ 0.0 0.2 P(Nomn|Nomn) 0.1

- Part )(1 Partδ 0.0 0.2 P(Nomn|Part) 0.1

0.06 Ω )(1 Ωδ 1.0 0.2 P(Nomn|Ω ) 0.3

Wort2 = „wir“ψ

DatenstrukturenSEQSCORE und BACKPTR

nach der 1. Iteration

j 1 2 3 4 5 6 i Adje AuxV KopV Nomn Part Ω 1 . 0.0 0.0 0.0 0.0 0.0 1.0 2 wir 0.0 0.0 0.0 0.06 0.0 0.0

j 1 2 3 4 5 6 i Adje AuxV KopV Nomn Part Ω 1 . 2 wir 0 0 0 6 0 0

Terminierung, Pfadausgabe

12 comment: Termination and path-readout1314 for j := n to 1 step -1 do1516 end

)( 11 ++= jjj XX ψ

Terminierung und Pfadausgabe

Spezifikation des Algorithmus1 comment: Given: a sentence of length n2 comment: Initialization345 comment: Induction6 for i := 1 to n step 1 do7 for all tags tj do8910 end11 end12 comment: Termination and path-readout1314 for j := n to 1 step -1 do1516 end17

0.1)(1 =ΩδΩ≠= tt for 0.0)(1δ

)]|()|()([max:)( 111kjj

i ttPtwPtt ××= +≤≤+ δδ)]|()|()([maxarg:)( 111kjj

)( 11 ++= jjj XX ψ

)(max),...,( 111j

nTjn tXXP +≤≤= δ

Literatur

• Allen, James (1995): Natural Language Understanding. 2nd edition. Addison-Wesley Publishing Co.

• Haenelt, Karin: Der Viterbi-Algorithmus. Eine Erläuterung der formalen Spezifikation am Beispiel des Part-of-Speech Tagging. Kursskript. 11.05.2002 http://kontext.fraunhofer.de/haenelt/kurs/folien/Viterbi-Tutor.dochttp://kontext.fraunhofer.de/haenelt/kurs/folien/Viterbi-Tutor.htm

• Manning, Christopher D.; Schütze, Hinrich (1999): Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press. (vgl.: http://www.sultry.arts.usyd.edu.au/fsnlp)

• Viterbi, Andrew J. (1967): Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. In: IEEE Transactions on Information Theory IT-13, S. 1260-1269.

Der Viterbi-Algorithmus im Part-of-Speech...

Documents

Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor

Diskrete Optimierung - Foswiki · 1.2. Was ist ein Algorithmus? 2 1.2 Was ist ein Algorithmus? De nition 1.2.1 Ein Algorithmus ist eine Anleitung zur schrittweisen L osung eines Problems

CS1005 Objektorientierte Programmierunghg51/Veranstaltungen/OOP... · Seite 7 Algorithmen und Programme Algorithmus – Definition Ein Algorithmus ist eine detaillierte und explizite

Gerhard Heyer Universität Leipzigasv.informatik.uni-leipzig.de/uploads/document/file_link/927/LI09_Strukturalistische... · Strukturalistische Semantik Prof. Dr. G. Heyer Modul Linguistische

Entwicklung und Evaluation eines Bresenham-Algorithmus

Le Minh-Anh (LMU) Regressionskalibrierung 5. Dezember ... · Dezember, 2014 2 / 41. Gliederung 1 Regressionskalibrierung-Algorithmus Problemstellung Algorithmus 2 Parameterschätzung

Programmierung eines tomographischen Algorithmus zur

Vom PID-Algorithmus zum industriell einsetzbaren ...€¦ · Vom PID-Algorithmus zum industriell einsetzbaren Reglerbaustein VL PLT1, SS 2011 Professur für Prozessleittechnik

Z-Box Algorithmus Preprocessing eines Strings · Ulf Leser Wissensmanagement in der Bioinformatik Bioinformatik Z-Box Algorithmus Preprocessing eines Strings

Der Viterbi Algorithmus - kontext.fraunhofer.dekontext.fraunhofer.de/haenelt/kurs/Referate/Trognitz_Viterbi.pdf · Trognitz Der Viterbi Algorithmus. Einführung Hidden Markov Models

Routenplanung & Komplexität. Lernziele Sie haben den Dijkstra-Algorithmus nachvollzogen. Sie haben das Konzept der Komplexität eines Algorithmus verstanden

Algorithmus. Ein Kochrezept, zum Beispiel: Kartoffelbrei

SB 4 Algorithmierung. Oliver Basel Core Themes 1/2 Grundbegrifflichkeiten um den Algorithmus Konstruktionsprinzipien beim Algorithmus Strukturelemente

Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

„Implementierung, Test und Bewertung eines zeitvarianten Algorithmus zur Ansteuerung ... · 2013. 12. 12. · „Implementierung, Test und Bewertung eines zeitvarianten Algorithmus

Der A*-Algorithmus

Algorithmus, Good School, Camp Digital

Der Train-Algorithmus Thomas Wuerthinger. Grundidee

Probabilistische kontextfreie Grammatiken - tagh.detagh.de/tom/wp-content/uploads/12-PCFG.pdf · Bemerkungen • Viterbi-CKY hat genau die gleichen Schleifen wie der normale CKY-Parser

Viterbi-Algorithmus - cis.uni-muenchen.dehs/teach/18w/pdf/viterbi,roth.pdf · Viterbi-Algorithmus •Ziel: Finde wahrscheinlichste Sequenz von Zuständen t(z.B. Wortarten-Tags), wenn