Softwareprojektpraktikum Maschinelle Übersetzung · PDF fileLevenshtein-Distanz I Minimale Anzahl an Einfügungs-, Auslassungs- und Ersetzungsoperationen, die nötig sind, um die

SoftwareprojektpraktikumMaschinelle bersetzung
Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl{peter,guta,schamper}@i6.informatik.rwth-aachen.de
Vorbesprechung 3. Aufgabe 19. Mai 2017
Human Language Technology and Pattern RecognitionLehrstuhl fr Informatik 6
Computer Science DepartmentRWTH Aachen University, Germany
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 1 Vorbesprechung 19. Mai 2017

Wie lsst sich die Qualitt von bersetzungen beurteilen?
I Ziele:
. Vergleich der Performanz verschiedener maschineller bersetzungssysteme
. Beurteilung des Effekts inkrementeller nderungenwhrend der Systementwicklung
. Optimierung freier Parameter
I Menschliche Bewertung:
. zeitaufwndig
. teuer
. Beurteilungen verschiedener Evaluatoren stimmen oft nicht berein
. Entscheidungen ein und desselben Evaluators sind oft nicht konsistent

Adequacy und Fluency
I Mgliche Kriterien zur Beurteilung von bersetzungen:
. Adequacy: Gibt die bersetzung die Bedeutung des Quellsatzes wieder?Sind keine Inhalte ausgelassen oder hinzugefgt worden?
. Fluency: Ist die bersetzung in der Zielsprache ein korrekt formulierterund flssig lesbarer Satz?
I Auf einer Skala von 1 bis 5:
The dog is barking.Adequacy Fluency
Bellen das Hund. 5 2Das Wetter ist schn. 1 5Der Hund bellt. 5 5

Automatische Evaluationsmetriken
I Automatisierte Bewertung von bersetzungen (Hypothesen) durch Vergleichmit einer oder mehreren von Menschen erstellten Referenzbersetzungen
I Gute automatische Metriken sollten eine hohe Korrelation mit menschlicherBewertung aufweisen
I Verbreitete Metriken:
. F-Measure
. WER (Word Error Rate)
. PER (Position-independent Error Rate)
. BLEU (Bilingual Evaluation Understudy)
. METEOR (Metric for Evaluation of Translation with Explicit Ordering)
. NIST-Score
. CharacTER
. BEER
. . . .

Beispiel: F-Measure
bereinstimmungen = Anzahl Wrter aus der Hypothese, die auch in derReferenz gefunden werden knnen
Precision =bereinstimmungen
Hypothesenlnge
Recall =bereinstimmungen
Referenzlnge
F-Measure =Precision Recall
(Precision + Recall)/2
=bereinstimmungen
(Hypothesenlnge + Referenzlnge)/2

Levenshtein-Distanz
I Minimale Anzahl an Einfgungs-, Auslassungs- und Ersetzungsoperationen,die ntig sind, um die Hypothese so zu editieren, dass sie mit der Referenzbereinstimmt
I Beispiel (Zeichenlevel)
Hypothese: B A N A N E
Referenz: A N A N A S
Hypothese: B A N A N E
Referenz: A N A N A S
Operationen: d m m m m s i
I insertion (i), deletion (d), substitution (s), match (m)

Berechnung der Levenshtein-Distanz
I Dynamische Programmierung
B A N A N E
0 1 2 3 4 5 6
A 1 1 1 2 3 4 5
N 2 2 2 1 2 3 4
A 3 3 2 2 1 2 3
N 4 4 3 2 2 1 2
A 5 5 4 3 2 2 2
S 6 6 5 4 3 3 3
I Referenz vertikal, Hypothese horizontal
. Match: Nimm Kosten von diagonal links oben
. Substitution: Nimm Kosten von diagonal links oben, addiere 1
. Insertion: Nimm Kosten von oben, addiere 1
. Deletion: Nimm Kosten von links, addiere 1
I Eintragung in Tabellenzelle ist Minimum aus Match/Substitution, Insertion und Deletion

WER und PER
I WER: Dividiere Levenshtein-Distanz (Wortlevel) durch Referenzlnge
Levenshtein-Distanz = Einfgungen + Auslassungen + Ersetzungen
WER =Levenshtein-Distanz
Referenzlnge
I PER: Zhle Anzahl der bereinstimmungen unabhngig von der Wortreihenfolge
PER = 1bereinstimmungenmax(0,Hypothesenlnge Referenzlnge)
Referenzlnge

BLEU
I n-gram = eine Folge von n Wrtern
I modified n-gram Precision pn einer Hypothese C:
pn =
n-gramC Countmatch(n-gram)n-gramC Count(n-gram)
(1)
I Brevity Penalty BP (c Lnge der Hypothese, r Lnge der Referenz):
BP =
{1 if c > re(1
rc) if c r
(2)
I BLEU (meist mit N = 4)
BLEU = BP exp(
Nn=1
1
Nlog pn
)(3)

Modified n-gram Precision
I Beispiel
. Hypothese: the the the the the the the
. Referenz: the cat is on the mat
I modified 1-gram Precision:
. the kommt in der Referenz nur zweimal vor
. p1 = 2/7
I modified 2-gram Precision:
. the the kommt in der Referenz niemals vor
. p2 = 0/6 = 0

Brevity Penalty
I Brevity Penalty:
BP =
{1 if c > re(1r/c) if c r (4)
. Problem bei zu kurzen Hypothesen: modified n-gram Precision sehr hoch
. Bsp: Hypothese: the cat, Reference: the cat is on the mat
. modified n-gram Precision = 2/2 = 1
. Lsung: Brevity Penalty bestraft zu kurze Hypothesen

Aufgabe 3
I Automatische Evaluierung der Ausgabe desmaschinellen bersetzungsprogramms aus Aufgabe 2
I Einlesen einer Referenzbersetzung und einer zu bewertenden bersetzung
I Levenshtein-Distanz mittels dynamischer Programmierung
I Berechnung von WER, PER und BLEU

Einzelaufgaben
I Jede Praktikumsgruppe ist fr die Vorstellung von einem existierenden Toolzustndig
I Vorbereitung von einem Vortrag fr alle Teilnehmer (10-15 Minuten) berderen Nutzung (mit Beispielen an eurem Quellcode)
Beispiele:
I Software-Dokumentation: z.B. doxygen
I Programmierung: Profiling mit z.B. gprof, valgrind und Verwendung vonunitTests
I Planung: Repository, z.B. mit git und einen Bug-Tracker, z.B. ditz

Fragen?
Viel Erfolg!
Wie lsst sich die Qualitt von bersetzungen beurteilen?Adequacy und FluencyAutomatische EvaluationsmetrikenBeispiel: F-MeasureLevenshtein-DistanzBerechnung der Levenshtein-DistanzWER und PERBLEUModified n-gram PrecisionBrevity PenaltyAufgabe 3EinzelaufgabenFragen?

Documents

Softwareprojektpraktikum Maschinelle Übersetzung · PDF fileLevenshtein-Distanz I Minimale Anzahl an Einfügungs-, Auslassungs- und Ersetzungsoperationen, die nötig sind, um die