If you can't read please download the document
Upload
lekien
View
218
Download
3
Embed Size (px)
Citation preview
SoftwareprojektpraktikumMaschinelle bersetzung
Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl{peter,guta,schamper}@i6.informatik.rwth-aachen.de
Vorbesprechung 3. Aufgabe 19. Mai 2017
Human Language Technology and Pattern RecognitionLehrstuhl fr Informatik 6
Computer Science DepartmentRWTH Aachen University, Germany
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 1 Vorbesprechung 19. Mai 2017
Wie lsst sich die Qualitt von bersetzungen beurteilen?
I Ziele:
. Vergleich der Performanz verschiedener maschineller bersetzungssysteme
. Beurteilung des Effekts inkrementeller nderungenwhrend der Systementwicklung
. Optimierung freier Parameter
I Menschliche Bewertung:
. zeitaufwndig
. teuer
. Beurteilungen verschiedener Evaluatoren stimmen oft nicht berein
. Entscheidungen ein und desselben Evaluators sind oft nicht konsistent
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 2 Vorbesprechung 19. Mai 2017
Adequacy und Fluency
I Mgliche Kriterien zur Beurteilung von bersetzungen:
. Adequacy: Gibt die bersetzung die Bedeutung des Quellsatzes wieder?Sind keine Inhalte ausgelassen oder hinzugefgt worden?
. Fluency: Ist die bersetzung in der Zielsprache ein korrekt formulierterund flssig lesbarer Satz?
I Auf einer Skala von 1 bis 5:
The dog is barking.Adequacy Fluency
Bellen das Hund. 5 2Das Wetter ist schn. 1 5Der Hund bellt. 5 5
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 3 Vorbesprechung 19. Mai 2017
Automatische Evaluationsmetriken
I Automatisierte Bewertung von bersetzungen (Hypothesen) durch Vergleichmit einer oder mehreren von Menschen erstellten Referenzbersetzungen
I Gute automatische Metriken sollten eine hohe Korrelation mit menschlicherBewertung aufweisen
I Verbreitete Metriken:
. F-Measure
. WER (Word Error Rate)
. PER (Position-independent Error Rate)
. BLEU (Bilingual Evaluation Understudy)
. METEOR (Metric for Evaluation of Translation with Explicit Ordering)
. NIST-Score
. CharacTER
. BEER
. . . .
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 4 Vorbesprechung 19. Mai 2017
Beispiel: F-Measure
bereinstimmungen = Anzahl Wrter aus der Hypothese, die auch in derReferenz gefunden werden knnen
Precision =bereinstimmungen
Hypothesenlnge
Recall =bereinstimmungen
Referenzlnge
F-Measure =Precision Recall
(Precision + Recall)/2
=bereinstimmungen
(Hypothesenlnge + Referenzlnge)/2
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 5 Vorbesprechung 19. Mai 2017
Levenshtein-Distanz
I Minimale Anzahl an Einfgungs-, Auslassungs- und Ersetzungsoperationen,die ntig sind, um die Hypothese so zu editieren, dass sie mit der Referenzbereinstimmt
I Beispiel (Zeichenlevel)
Hypothese: B A N A N E
Referenz: A N A N A S
Hypothese: B A N A N E
Referenz: A N A N A S
Operationen: d m m m m s i
I insertion (i), deletion (d), substitution (s), match (m)
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 6 Vorbesprechung 19. Mai 2017
Berechnung der Levenshtein-Distanz
I Dynamische Programmierung
B A N A N E
0 1 2 3 4 5 6
A 1 1 1 2 3 4 5
N 2 2 2 1 2 3 4
A 3 3 2 2 1 2 3
N 4 4 3 2 2 1 2
A 5 5 4 3 2 2 2
S 6 6 5 4 3 3 3
I Referenz vertikal, Hypothese horizontal
. Match: Nimm Kosten von diagonal links oben
. Substitution: Nimm Kosten von diagonal links oben, addiere 1
. Insertion: Nimm Kosten von oben, addiere 1
. Deletion: Nimm Kosten von links, addiere 1
I Eintragung in Tabellenzelle ist Minimum aus Match/Substitution, Insertion und Deletion
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 7 Vorbesprechung 19. Mai 2017
WER und PER
I WER: Dividiere Levenshtein-Distanz (Wortlevel) durch Referenzlnge
Levenshtein-Distanz = Einfgungen + Auslassungen + Ersetzungen
WER =Levenshtein-Distanz
Referenzlnge
I PER: Zhle Anzahl der bereinstimmungen unabhngig von der Wortreihenfolge
PER = 1bereinstimmungenmax(0,Hypothesenlnge Referenzlnge)
Referenzlnge
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 8 Vorbesprechung 19. Mai 2017
BLEU
I n-gram = eine Folge von n Wrtern
I modified n-gram Precision pn einer Hypothese C:
pn =
n-gramC Countmatch(n-gram)n-gramC Count(n-gram)
(1)
I Brevity Penalty BP (c Lnge der Hypothese, r Lnge der Referenz):
BP =
{1 if c > re(1
rc) if c r
(2)
I BLEU (meist mit N = 4)
BLEU = BP exp(
Nn=1
1
Nlog pn
)(3)
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 9 Vorbesprechung 19. Mai 2017
Modified n-gram Precision
I Beispiel
. Hypothese: the the the the the the the
. Referenz: the cat is on the mat
I modified 1-gram Precision:
. the kommt in der Referenz nur zweimal vor
. p1 = 2/7
I modified 2-gram Precision:
. the the kommt in der Referenz niemals vor
. p2 = 0/6 = 0
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 10 Vorbesprechung 19. Mai 2017
Brevity Penalty
I Brevity Penalty:
BP =
{1 if c > re(1r/c) if c r (4)
. Problem bei zu kurzen Hypothesen: modified n-gram Precision sehr hoch
. Bsp: Hypothese: the cat, Reference: the cat is on the mat
. modified n-gram Precision = 2/2 = 1
. Lsung: Brevity Penalty bestraft zu kurze Hypothesen
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 11 Vorbesprechung 19. Mai 2017
Aufgabe 3
I Automatische Evaluierung der Ausgabe desmaschinellen bersetzungsprogramms aus Aufgabe 2
I Einlesen einer Referenzbersetzung und einer zu bewertenden bersetzung
I Levenshtein-Distanz mittels dynamischer Programmierung
I Berechnung von WER, PER und BLEU
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 12 Vorbesprechung 19. Mai 2017
Einzelaufgaben
I Jede Praktikumsgruppe ist fr die Vorstellung von einem existierenden Toolzustndig
I Vorbereitung von einem Vortrag fr alle Teilnehmer (10-15 Minuten) berderen Nutzung (mit Beispielen an eurem Quellcode)
Beispiele:
I Software-Dokumentation: z.B. doxygen
I Programmierung: Profiling mit z.B. gprof, valgrind und Verwendung vonunitTests
I Planung: Repository, z.B. mit git und einen Bug-Tracker, z.B. ditz
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 13 Vorbesprechung 19. Mai 2017
Fragen?
Viel Erfolg!
J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 14 Vorbesprechung 19. Mai 2017
Wie lsst sich die Qualitt von bersetzungen beurteilen?Adequacy und FluencyAutomatische EvaluationsmetrikenBeispiel: F-MeasureLevenshtein-DistanzBerechnung der Levenshtein-DistanzWER und PERBLEUModified n-gram PrecisionBrevity PenaltyAufgabe 3EinzelaufgabenFragen?