Softwareprojektpraktikum Maschinelle Übersetzung · PDF fileLevenshtein-Distanz I Minimale Anzahl an Einfügungs-, Auslassungs- und Ersetzungsoperationen, die nötig sind, um die

  • Upload
    lekien

  • View
    218

  • Download
    3

Embed Size (px)

Citation preview

  • SoftwareprojektpraktikumMaschinelle bersetzung

    Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl{peter,guta,schamper}@i6.informatik.rwth-aachen.de

    Vorbesprechung 3. Aufgabe 19. Mai 2017

    Human Language Technology and Pattern RecognitionLehrstuhl fr Informatik 6

    Computer Science DepartmentRWTH Aachen University, Germany

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 1 Vorbesprechung 19. Mai 2017

  • Wie lsst sich die Qualitt von bersetzungen beurteilen?

    I Ziele:

    . Vergleich der Performanz verschiedener maschineller bersetzungssysteme

    . Beurteilung des Effekts inkrementeller nderungenwhrend der Systementwicklung

    . Optimierung freier Parameter

    I Menschliche Bewertung:

    . zeitaufwndig

    . teuer

    . Beurteilungen verschiedener Evaluatoren stimmen oft nicht berein

    . Entscheidungen ein und desselben Evaluators sind oft nicht konsistent

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 2 Vorbesprechung 19. Mai 2017

  • Adequacy und Fluency

    I Mgliche Kriterien zur Beurteilung von bersetzungen:

    . Adequacy: Gibt die bersetzung die Bedeutung des Quellsatzes wieder?Sind keine Inhalte ausgelassen oder hinzugefgt worden?

    . Fluency: Ist die bersetzung in der Zielsprache ein korrekt formulierterund flssig lesbarer Satz?

    I Auf einer Skala von 1 bis 5:

    The dog is barking.Adequacy Fluency

    Bellen das Hund. 5 2Das Wetter ist schn. 1 5Der Hund bellt. 5 5

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 3 Vorbesprechung 19. Mai 2017

  • Automatische Evaluationsmetriken

    I Automatisierte Bewertung von bersetzungen (Hypothesen) durch Vergleichmit einer oder mehreren von Menschen erstellten Referenzbersetzungen

    I Gute automatische Metriken sollten eine hohe Korrelation mit menschlicherBewertung aufweisen

    I Verbreitete Metriken:

    . F-Measure

    . WER (Word Error Rate)

    . PER (Position-independent Error Rate)

    . BLEU (Bilingual Evaluation Understudy)

    . METEOR (Metric for Evaluation of Translation with Explicit Ordering)

    . NIST-Score

    . CharacTER

    . BEER

    . . . .

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 4 Vorbesprechung 19. Mai 2017

  • Beispiel: F-Measure

    bereinstimmungen = Anzahl Wrter aus der Hypothese, die auch in derReferenz gefunden werden knnen

    Precision =bereinstimmungen

    Hypothesenlnge

    Recall =bereinstimmungen

    Referenzlnge

    F-Measure =Precision Recall

    (Precision + Recall)/2

    =bereinstimmungen

    (Hypothesenlnge + Referenzlnge)/2

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 5 Vorbesprechung 19. Mai 2017

  • Levenshtein-Distanz

    I Minimale Anzahl an Einfgungs-, Auslassungs- und Ersetzungsoperationen,die ntig sind, um die Hypothese so zu editieren, dass sie mit der Referenzbereinstimmt

    I Beispiel (Zeichenlevel)

    Hypothese: B A N A N E

    Referenz: A N A N A S

    Hypothese: B A N A N E

    Referenz: A N A N A S

    Operationen: d m m m m s i

    I insertion (i), deletion (d), substitution (s), match (m)

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 6 Vorbesprechung 19. Mai 2017

  • Berechnung der Levenshtein-Distanz

    I Dynamische Programmierung

    B A N A N E

    0 1 2 3 4 5 6

    A 1 1 1 2 3 4 5

    N 2 2 2 1 2 3 4

    A 3 3 2 2 1 2 3

    N 4 4 3 2 2 1 2

    A 5 5 4 3 2 2 2

    S 6 6 5 4 3 3 3

    I Referenz vertikal, Hypothese horizontal

    . Match: Nimm Kosten von diagonal links oben

    . Substitution: Nimm Kosten von diagonal links oben, addiere 1

    . Insertion: Nimm Kosten von oben, addiere 1

    . Deletion: Nimm Kosten von links, addiere 1

    I Eintragung in Tabellenzelle ist Minimum aus Match/Substitution, Insertion und Deletion

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 7 Vorbesprechung 19. Mai 2017

  • WER und PER

    I WER: Dividiere Levenshtein-Distanz (Wortlevel) durch Referenzlnge

    Levenshtein-Distanz = Einfgungen + Auslassungen + Ersetzungen

    WER =Levenshtein-Distanz

    Referenzlnge

    I PER: Zhle Anzahl der bereinstimmungen unabhngig von der Wortreihenfolge

    PER = 1bereinstimmungenmax(0,Hypothesenlnge Referenzlnge)

    Referenzlnge

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 8 Vorbesprechung 19. Mai 2017

  • BLEU

    I n-gram = eine Folge von n Wrtern

    I modified n-gram Precision pn einer Hypothese C:

    pn =

    n-gramC Countmatch(n-gram)n-gramC Count(n-gram)

    (1)

    I Brevity Penalty BP (c Lnge der Hypothese, r Lnge der Referenz):

    BP =

    {1 if c > re(1

    rc) if c r

    (2)

    I BLEU (meist mit N = 4)

    BLEU = BP exp(

    Nn=1

    1

    Nlog pn

    )(3)

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 9 Vorbesprechung 19. Mai 2017

  • Modified n-gram Precision

    I Beispiel

    . Hypothese: the the the the the the the

    . Referenz: the cat is on the mat

    I modified 1-gram Precision:

    . the kommt in der Referenz nur zweimal vor

    . p1 = 2/7

    I modified 2-gram Precision:

    . the the kommt in der Referenz niemals vor

    . p2 = 0/6 = 0

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 10 Vorbesprechung 19. Mai 2017

  • Brevity Penalty

    I Brevity Penalty:

    BP =

    {1 if c > re(1r/c) if c r (4)

    . Problem bei zu kurzen Hypothesen: modified n-gram Precision sehr hoch

    . Bsp: Hypothese: the cat, Reference: the cat is on the mat

    . modified n-gram Precision = 2/2 = 1

    . Lsung: Brevity Penalty bestraft zu kurze Hypothesen

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 11 Vorbesprechung 19. Mai 2017

  • Aufgabe 3

    I Automatische Evaluierung der Ausgabe desmaschinellen bersetzungsprogramms aus Aufgabe 2

    I Einlesen einer Referenzbersetzung und einer zu bewertenden bersetzung

    I Levenshtein-Distanz mittels dynamischer Programmierung

    I Berechnung von WER, PER und BLEU

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 12 Vorbesprechung 19. Mai 2017

  • Einzelaufgaben

    I Jede Praktikumsgruppe ist fr die Vorstellung von einem existierenden Toolzustndig

    I Vorbereitung von einem Vortrag fr alle Teilnehmer (10-15 Minuten) berderen Nutzung (mit Beispielen an eurem Quellcode)

    Beispiele:

    I Software-Dokumentation: z.B. doxygen

    I Programmierung: Profiling mit z.B. gprof, valgrind und Verwendung vonunitTests

    I Planung: Repository, z.B. mit git und einen Bug-Tracker, z.B. ditz

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 13 Vorbesprechung 19. Mai 2017

  • Fragen?

    Viel Erfolg!

    J.-T. Peter, A. Guta, J. Rosendahl Maschinelle bersetzung 14 Vorbesprechung 19. Mai 2017

    Wie lsst sich die Qualitt von bersetzungen beurteilen?Adequacy und FluencyAutomatische EvaluationsmetrikenBeispiel: F-MeasureLevenshtein-DistanzBerechnung der Levenshtein-DistanzWER und PERBLEUModified n-gram PrecisionBrevity PenaltyAufgabe 3EinzelaufgabenFragen?