Integration von Synonymen in statistische maschinelle ... · PDF fileIdee und das Ziel dieser Diplomarbeit ist es, mit Hilfe von Synonymen, die ... Als Beispielsprachen werden Deutsch

Integration von Synonymen in statistische

maschinelle Ubersetzungssysteme

Cornelius Putzler

27. Mai 2014

Version 1.3 - aktualisiert am 27.05.2014

Prufer : Prof. Dr. Jonas Kuhn und Dr. rer. nat. Andreas Maletti

Betreuer : Dr. rer. nat. Andreas Maletti

Universitat : Universitat Stuttgart

Institut : Institut fur Maschinelle Sprachverarbeitung

Lehrstuhl : Grundlagen der Computerlinguistik

Bearbeitung : Cornelius Putzler (Matrikelnummer: 2373926)

Eigenstandigkeitserklarung

Hiermit versichere ich, dass ich die vorliegende Diplomarbeit selbstandig ver-

fasst habe. Ich versichere, dass ich keine anderen als die angegebenen Quellen

benutzt und alle wortlich oder sinngemaß aus anderen Werken ubernomme-

nen Aussagen als solche gekennzeichnet habe.

Inhaltsverzeichnis

1 Einleitung 1

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Ubersetzungssysteme, Daten und Evaluation . . . . . . . . . . 2

1.3.1 MOSES . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3.2 Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3.2.1 Test-, Trainings- und Ubersetzungssets . . . . 4

1.3.3 Evaluationsalgorithmen . . . . . . . . . . . . . . . . . . 6

1.3.4 Statistische Signifikanz . . . . . . . . . . . . . . . . . . 7

1.3.5 Out Of Vocablulary - Rates (OOV-Rates) . . . . . . . 8

1.3.6 Thesaurus . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.6.1 Thesauruseintrage + Corpusfrequenz . . . . . 9

2 Systeme - Uberblick 10

2.1 Wort-basiertes System . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Phrasen-basiertes System . . . . . . . . . . . . . . . . . . . . . 14

2.3 Baum-basiertes System . . . . . . . . . . . . . . . . . . . . . . 16

3 Implementierungen in MOSES 18

3.1 Aufbau eines Ubersetzungssystems in MOSES . . . . . . . . . 18

3.2 Phrasen-basiertes System in MOSES . . . . . . . . . . . . . . 20

3.3 Hierarchisches System in MOSES . . . . . . . . . . . . . . . . 23

3.4 Syntaktisches System in MOSES . . . . . . . . . . . . . . . . 25

3.5 Technischer Uberblick uber die generierten MOSES Systeme

und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.6 Einspeisung der Thesaurusdaten in MOSES . . . . . . . . . . 28

3.7 Morphologische Erweiterung fur alle Systeme . . . . . . . . . . 33

4 Evaluation 35

4.1 Quantitative Analyse . . . . . . . . . . . . . . . . . . . . . . . 35

4.2 Phrasen-basiertes System . . . . . . . . . . . . . . . . . . . . . 37

4.3 Hierarchisches System . . . . . . . . . . . . . . . . . . . . . . 38

4.4 Syntaktisches System . . . . . . . . . . . . . . . . . . . . . . . 39

4.5 Qualitative Analyse . . . . . . . . . . . . . . . . . . . . . . . . 40

5 Probleme 48

5.1 Linguistischer Hintergrund . . . . . . . . . . . . . . . . . . . . 48

5.1.1 Phrasen versus Worter . . . . . . . . . . . . . . . . . . 48

5.1.2 Umgangs- und fachsprachliche Ausdrucke . . . . . . . . 49

5.2 Technischer Hintergrund . . . . . . . . . . . . . . . . . . . . . 49

5.2.1 Bewertungsalgorithmen . . . . . . . . . . . . . . . . . . 50

5.2.2 Erhohung der Varianz . . . . . . . . . . . . . . . . . . 51

5.2.3 Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Fazit 52

6.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.2 Ausblick und Weiterentwicklung . . . . . . . . . . . . . . . . . 53

7 Danksagung 57

8 Anhang 58

Literaturverzeichnis 59

1 Einleitung

1.1 Motivation

Maschinelle Ubersetzungssysteme existieren bereits seit mehreren Jahren und

sind stetig in vielerlei Richtungen verbessert worden. Die Grundidee der ma-

schinellen Ubersetzung ist: Die Quellsprache wird anhand bilingualer Cor-

pora in die Zielsprache ubersetzt. Kommt ein Wort oder eine Phrase der

Quellsprache in dem benutzten Corpus vor, so wird das Wort oder die Phra-

se direkt ubersetzt, andernfalls wird die Phrase so gut es geht konstruiert

und auf diese Art und Weise ubersetzt. Da es zum Beispiel im Deutschen

kein Limit an moglichen Phrasen gibt (Adjektive konnen beliebig lang hin-

tereinander gehangt werden, Nebensatze unendlich lang fortgefuhrt werden),

gibt es auch keine bilingualen Corpora, die jede Phrase beinhalten. Aufgrund

dessen ist die maschinelle Ubersetzung noch weit davon entfernt, perfekt zu

sein. Um die Qualitat zu steigern, wurden unter anderem diverse Techniken

getestet, Synonyme in die maschinelle Ubersetzung miteinzubeziehen und das

mit Erfolg [3]. Dies passierte jedoch nach der eigentlichen Ubersetzung. Die

Idee und das Ziel dieser Diplomarbeit ist es, mit Hilfe von Synonymen, die

vor der Ubersetzung gesucht und eingesetzt werden, die Ubersetzungsqua-

litat zu steigern. Durch das Einfugen von Synonymen vor der Ubersetzung

wird die Abdeckung an zu ubersetzenden Worten erhoht, was theoretisch

zu einer Qualitatsverbesserung fuhren sollte, da eine hohere Abdeckung lo-

gischerweise eine hohere Qualitat aufweisen sollte. Fuhrt man die Synony-

me nach der Ubersetzung ein, so steigert dies die Varianz - allerdings kann

dies, wenn der Hintergrund des ubersetzten Textes richtig erkannt wird, pas-

sendere Ubersetzungen liefern. Beispielsweise will man in einem Text, der

technische Fachbegriffe beinhaltet, diese auch korrekt fachsprachlich uber-

setzen [23]. Als Beispielsprachen werden Deutsch und Englisch verwendet,

wobei der eigentliche Programmieransatz modular gestaltet ist, so dass die

Sprachen beliebig austauschbar sind.

1

1.2 Aufbau der Arbeit

Zunachst soll ein Uberblick uber die benutzten Daten und Programme ge-

schaffen werden so wie deren Aufbau, Inhalt, Benutzung und Ziel.

Im zweiten Kapitel wird der linguistische Hintergrund und der grobe Aufbau

der Ubersetzungssystemvarianten beschrieben.

Das dritte Kapitel handelt von den Implementationen der Ubersetzungssy-

steme in die maschinelle Sprachverarbeitung und deren Aufbau in dem fur

diese Arbeit benutzten Programm. Ebenfalls wird erlautert, auf welche Art

und Weise die Integration von Synonymen in die Systeme stattfindet.

Das vierte Kapitel dient der Evaluation auf quantitativer und qualitativer

Ebene. Es werden sowohl alle maschinellen Bewertungen dargelegt als auch

der Inhalt der Ubersetzungen uberpruft und diskutiert.

Das funfte Kapitel beschriebt die Probleme, die sowohl in dieser Arbeit auf-

traten als auch allgemeine Probleme der maschinellen Ubersetzung.

Im Fazit werden kurz die Ergebnisse zusammengefasst und ein Ausblick ge-

geben, ob die getesteten Methoden sinnvoll sind. Ferner wird ein weiterer

Ansatz vorgestellt.

1.3 Ubersetzungssysteme, Daten und Evaluation

Als Ubersetzungssystem wird MOSES [17] benutzt. MOSES ist ein quellof-

fenes Ubersetzungssystem, das mit Hilfe von trainierten Ubersetzungsmo-

dellen automatisch Texte ubersetzen kann. MOSES beinhaltet alle aktuel-

len statistischen Ubersetzungsmethoden. Dazu zahlen das phrasen-basierte,

hierarchisch-basierte und syntax-basierte Ubersetzen.

Das Hauptcorpus, das sowohl zur Evaluation als auch der Extraktion meh-

rerer Datensatze dient, ist Europarl [18]. Andere, kleinere Corpora wie Sde-

WaC [8] und Wikipedia [5] (s. Abschnitt 1.3.2) werden im Verlauf der Arbeit

ebenfalls benutzt.

Die fur diese Arbeit essentiellen, deutschen Synonyme werden aus dem Open-

Source-Thesaurus OpenThesaurus [20] extrahiert.

Abschließend werden die erstellten Systeme via BLEU [27] und TER [34] eva-

luiert und ausfuhrlich untereinander und mit den unveranderten Systemen

2

verglichen.

1.3.1 MOSES

MOSES ist aktuell im Bereich der statistischen maschinellen Ubersetzung

die wichtigste Ressource. Die außerordentlich guten und rechenzeitoptimier-

ten Implementierungen aller zur Zeit genutzten Ubersezungsmodelle bieten

eine ideale Plattform dafur, theoretische Ansatze praktisch durchzufuhren.

Ubersetzungssysteme wie “google Translate” und “bing Translate” bauen

ebenfalls auf MOSES auf. Aufgrund des modularen Aufbaus (“Alignment”,

“Training”, “Tuning”, “Translate” et cetera) sowie der freien Verfugbarkeit

und Benutzung von MOSES eignet sich das vorhandene “Framework” be-

stens fur die Umsetzung der Ideen dieser Arbeit. MOSES besteht aus meh-

reren Teilen. So werden neben MOSES, das fur die Ubersetzung zustandig

ist, auch noch GIZA [25], SRILM [35] und IRSTLM [10] [9] benotigt.

GIZA ist fur das “alignment” (siehe Kapitel 2), das Verknupfen von Wortern,

zustandig.

SRILM und IRSTLM werden benotigt, um das “language model”(siehe 3.1)

des Systems zu erstellen. Das “language model” ist dafur zustandig, dass

Texte in der Zielsprache sinnvoll generiert werden konnen. In dieser Arbeit

wurden folgende Versionen der Programme benutzt:

MOSES Version 1.0 (abgerufen am 03.10.2013)

boost 1.55.0 (abgerufen am 03.10.2013

IRSTLM 5.80.03 (abgerufen am 03.10.2013)

SRILM 1.7.0 (abgerufen am 03.10.2013)

GIZA++ 1.0.7 (abgerufen am 03.10.2013)

1.3.2 Corpora

Europarl ist ein Parallelcorpus, das aus den Verhandlungen des Europaischen

Parlaments entstanden ist. Die verschiedenen Sprachen stimmen in ihren

Satzen uberein, das heißt, dass es fur jeden Satz in einem der Corpora ei-

ne Ubersetzung gibt, die ebenfalls ein Satz ist. Europarl beinhaltet 21 eu-

3

ropaische Sprachen [18].

Dieses Corpus wurde spezifisch fur die maschinelle Ubersetzung entwickelt

und ist heute ein sowohl sehr großes (ungefahr 60 Millionen Worter pro Spra-

che) als auch das wichtigste und am haufigsten verwendete Corpus der ma-

schinellen Ubersetzung europaischer Sprachen.

DeWaC [4] ist ein deutsches Corpus, das einerseits Worter aus deutschen

Domains (.de) als auch Worter mit mittlerer Vorkommensfrequenz in der

Suddeutschen Zeitung beinhaltet. Außerdem sind die Worter mit ihren Wort-

arten (Part-of-Speech-Tags: POS-Tags) versehen.

SDeWaC [8] (Stuttgart DeWaC) ist ein mittelgroßes Corpus, das eine Ab-

wandlung von DeWaC ist. Es wurden doppelte und falsche Eintrage entfernt

und einige kleinere Fehler behoben.

Wikipedia ist ebenfalls ein deutsches Corpus, das aus der gleichnamigen,

deutschen Web-Enzyklopadie von Herrn Andre Blessing mit Hilfe der Java

Wikipedia Library 2 [5] am 10. April 2011 extrahiert wurde. Auch in diesem

Corpus sind die Worter mit POS-Tags versehen.

(S)DeWaC und Wikipedia sind monolinguale Corpora. Sie werden deshalb

in dieser Arbeit nur fur Frequenzanalysen und POS-Tag Filter verwendet.

Eine Corpusfrequenz ist die Anzahl der Vorkommen eines Wortes innerhalb

eines Corpus. Die Idee hinter der Frequenz ist es, die Worter nochmals einer

Qualitatskontrolle zu unterziehen. So werden hoher frequentierte Worte bes-

ser eingestuft als niedrig frequentierte Worte. Außerdem ist es so moglich,

manche (unpassende) Synonyme herauszufiltern, was ohne Frequenz auf ei-

nem nicht selbst zusammengestellten Datensatz nicht moglich ist, da kein

semantischer Bezug besteht.

1.3.2.1 Test-, Trainings- und Ubersetzungssets

Um ein automatisches Ubersetzungssystem zu trainieren und zu verbessern,

werden sogenannte Testsets benotigt. Ein Testset ist ublicherweise ein sehr

kleines Parallelcorpus, das auf Satzebene ausgerichtet ist. In dieser Arbeit

wird fur das Training das offizielle Testset des “Workshop in Machine Transla-

tion 2013” [2] “news-commentary-v8” benutzt. Es beinhaltet ungefahr 130000

4

Satze und handelt inhaltlich von Kommentaren [30] zu Nachrichten. Um das

Ubersetzungssystem spater zu verbessern beziehungsweise dessen Genauig-

keit zu erhohen, wird ebenfalls ein Testset benotigt, das sich jedoch vom

Trainingsset unterscheiden muss. Hierzu wird das kleinere Testset “New-

stest2008” [1] benutzt, das von Nachrichtensatzen handelt1. Ein solches Set

wird Tuningset genannt. Letztendlich wird noch ein tatsachliches Uberset-

zungsset benotigt. Auch hier handelt es sich um ein Paralleldatenset. Die

Ubersetzungszielseite wird als Referenzubersetzung fur die Evaluation fest-

gelegt. Ublicherweise wird fur die Ubersetzung ein Text genommen, der in-

haltlich nah bei dem Tuningset liegt, jedoch keinesfalls der gleiche ist, da die

Domane, in der ubersetzt wird, in einigen Fallen sehr spezifisch sein kann

und so das Tuning zwangslaufig auf eine Domane auslegt ist. Ein Beispiel fur

die Wichtigkeit der Domanenzugehorigkeit ware, “Microsoft Word” nicht mit

”Microsoft Wort“ zu ubersetzen, sondern mit

”Microsoft Word“. Als Uber-

setzungsset wird somit “Newstest2011” [1] benutzt.

Alle benutzten Daten werden vor der Verwendung”tokenisiert“ und “trueca-

sed”. Tokenisierung bedeutet, dass ein Satz auf Wortebene in seine Einheiten

(”Tokens“) zerlegt wird. Dieser Prozess erleichtert die Weiterverarbeitung der

Daten immens. So wird zum Beispiel aus:

”(Das Parlament erhebt sich zu einer Schweigeminute.)“

”( Das Parlament erhebt sich zu einer Schweigeminute . )“

“Truecasing” bedeutet, die”echte“ Schreibweise eines Wortes herauszufinden.

Im Englischen und Deutschen werden Worter am Satzanfang groß geschrie-

ben. Dies ist aber nicht ihre richtige Schreibweise. Außerdem werden alle

Satze mit einer Lange von uber 80 Wortern herausgefiltert, da diese nicht

sehr oft im normalen Sprachgebrauch vorkommen, die Rechenleistung extrem

beanspruchen und die Systeme fur zu lange Satze sehr fehleranfallig sind.

1Nahere Details zu diesem Testset sind bei den Ergebnissen des Workshop for MachineTranslation 2012 zu finden: http://www.statmt.org/wmt12/pdf/WMT02.pdf

5

1.3.3 Evaluationsalgorithmen

BLEU [27], TER sind Metriken zur automatischen Evaluation in der maschi-

nellen Ubersetzung. Bei BLEU (Bilingual Evaluation Understudy) [27] wird

die maschinelle Ubersetzung mit einer Ubersetzung durch Menschen bezie-

hungsweise mit der entsprechenden Zielsprachenseite des bilingualen Corpus

verglichen und mit einem Wert versehen, der zwischen 0 und 1 liegt, wobei 1

die maximale Qualitat widerspiegelt. Hierbei werden “n-grams” gesucht, die

mit der Referenzubersetzung ubereinstimmen. “n-grams” sind Reihen von

Wortern. So werden Unigramme (1-gram) fur eine Wort-fur-Wort Uberset-

zung benutzt und Multigramme, um festzustellen wie, fließend (“fluent”) der

Text ist. Zur Berechnung des Wertes wird eine”Straffunktion“ verwendet

(sentence brevity penalty (BP)), die, falls der ubersetzte Satz kurzer als der

Referenzsatz ist, den BLEU-Wert nach unten skaliert. Außerdem wird die

Prazision p errechnet, die dazu dient, die Richtigkeit der “n-grams” zu be-

werten. Die n-Gramm-Prazision pn wird auf Satzebene aus der maximalen

Anzahl auftretender, einzigartiger “n-grams” in den Referenzubersetzungen

geteilt durch die Anzahl aller “n-grams” in der zu uberprufenden Uberset-

zung errechnet.2

Um 1 zu erreichen, muss die maschinelle Ubersetzung mit der Referenzuber-

setzung ubereinstimmen. Ein typischer, sehr guter Wert der maschinellen

Ubersetzung liegt bei der Ubersetzung von Englisch nach Deutsch bei 0.3.

Andere Sprachen, die sich besser ubersetzen lassen, da sie grammatikalisch

ahnlicher sind (wie zum Beispiel Franzosisch nach Englisch), haben ubli-

cherweise hohere Werte. Diese Werte konnen allerdings je nach Domane der

Trainingsdaten des Ubersetzungssystems und des zu ubersetzenden Textes

stark variieren. Liegen die Domanen nah beieinander und sind sehr spezi-

fisch, so werden die Ergebniswerte logischerweise besser, als wenn es sich um

entfernte, sehr allgemeine Domanen handelt.

2Eine gute, weiterfuhrende Erklarung mit Beispielen findet sich auf http://www.cl.uni-heidelberg.de/courses/archiv/ss06/mue/Bleu_Evaluation.pdf

6

BP =

1 wenn c > r

e1−r/c wenn c ≤ r

BLEU = BP ∗ exp(N∑

n=1

1N

log pn)

mit:

BP – sentence brevity penalty

c – Lange des maschinell ubersetzten Satzes

r – Lange des Referenzsatzes

N – hochste N-Gramm Zahl

pn – n-Gramm-Prazision

Bei TER (Translation Edit Rate) geht es um die Anzahl der benotigten Edi-

tierschritte (#e) eines Satzes, um auf die Referenzubersetzung zu gelangen

geteilt durch die durchschnittliche Lange der Referenzubersetzungen (Ø#r).

TER = #eØ#r

1.3.4 Statistische Signifikanz

Die oben genannten Evaluationsalgorithmen liefern Werte, um die Qualitat

eines ubersetzten Textes zu messen. So hat man zwar einen definitiven Wert

fur jeden ubersetzten Text, doch ob der Unterschied zwischen Texten wirklich

aussagekraftig ist oder er nur so minimal und zu vernachlassigen ist, muss

uberpruft werden. Ein Mensch konnte die Unterschiede leicht bewerten, um

zu beurteilen, ob ein Text besser, schlechter oder sehr ahnlich dem anderen

ist. Da die menschliche, manuelle Interpretation der Qualitat solcher Texte

sehr teuer, zeitaufwendig und sehr varianzreich sein kann, greift man in der

statistischen maschinellen Ubersetzung zu einem statistischen Signifikanz-

test [19]. Dieser Test beruht auf “Bootstrapping” des benutzten Evaluations-

algorithmus. “Bootstrapping” bedeutet, dass mehrere Teilmengen des kom-

pletten Textes genommen werden und diese Teilmengen mit dem benutzten

Evaluationsalgorithmus bewertet werden. Dieser Prozess wird in der Regel

7

beziehungsweise in der Implementation, die in in MOSES benutzt wird, 1000-

mal ausgefuhrt. Daraufhin werden die 2,5% besten und 2,5% schlechtesten

Werte der Teilmengen entfernt. Die verbleibenden 95% bilden das Konfi-

denzintervall. Anhand des Konfidenzintervalls werden nun mehrere Uberset-

zungen miteinander verglichen und gezeigt, wieviel Prozent der Werte man

loschen darf, damit das vom Gesamtwert her schlechtere Ubersetzungsmodell

im Konfidenzintervall des besseren Systems liegt.

1.3.5 Out Of Vocablulary - Rates (OOV-Rates)

Um die Wortabdeckung eines Ubersetzungssystems zu messen, werden alle

Worter eines Testsets mit dem”Worterbuch“ des Ubersetzungssystem abge-

glichen. Fehlt ein Wort im”Worterbuch“ des Systems, so wird dies gezahlt.

Um die OOV-Rate zu berechnen, gilt die einfache Formel:

OOV-RateVocab = muv

mit:

m – fehlende einzigartige Worter im Text

uv – einzigartige Worter im Vokabular

Außerdem wird in dieser Arbeit noch zusatzlich die OOV-Rate fur das Test-

set berechnet. Damit wird veranschaulicht, wie spezifisch (hohe OOV-Rate)

oder allgemein (niedrige OOV-Rate) das Testset ist.

OOV-RateText = mut

mit:

m – fehlende einzigartige Worter im Text

ut – einzigartige Worter im Text

Fehlende Eintrage nennt man “unknown words”. Diese werden in MOSES in

den ubersetzten Text ubernommen. Fehlt also eine Ubersetzung fur”Metz-

ger“ (eng: butcher) so steht im ubersetzten Text einfach”Metzger“ statt

“butcher”.

8

1.3.6 Thesaurus

Ein Thesaurus ist ein gleichsprachiges Worterbuch mit Erklarungen und Syn-

onymen zu jedem Eintrag. Fur diese Arbeit wurde der deutsche OpenThesau-

rus [20] [22] [21] benutzt. Es handelt sich hierbei um einen offenen Thesaurus,

sprich die Daten und Informationen sind ahnlich wie bei Wikipedia von je-

dem eintragbar und kontrollierbar. Die Qualitat sowie die Quantitat der Da-

ten sind dementsprechend hoch und deshalb eine solide Basis, um Synonyme

zu extrahieren. Es sind alle deutschen Wortarten abgedeckt. Ebenfalls ist die

gesamte Datenbank in verschiedenen Formaten frei verfugbar. Das Format

des OpenThesaurus fur diese Arbeit sieht folgendermaßen aus:

Abstand; Leerschlag; Leerschritt; Leerzeichen

Lieferumfang; Leistungsumfang; Lieferungsumfang; Zubehor

Jede Zeile ist eine semantische Gruppe an Begriffen, die jedoch nicht zwin-

gend die selbe Wortklasse haben mussen.

1.3.6.1 Thesauruseintrage + Corpusfrequenz

Fur die Durchsetzung der Idee dieser Arbeit ist es erforderlich, dass die Wor-

te des Thesaurus eine Corpusfrequenz besitzen. Deswegen konnen manche

Synonyme, die zwar in OpenThesaurus vorkommen, jedoch nicht in den fur

die Frequenzextraktion benutzten Corpora, nicht berucksichtigt werden und

werden verworfen. In einem spateren Teil (3.6) der Arbeit wird das Verfahren

der Synonymauswahl genauer beschrieben.

9

2 Systeme - Uberblick

Im folgenden Teil werden die benutzten Ubersetzungssysteme nach Philipp

Koehns Buch “Statistical Machine Translation” [12] erlautert und erklart.

2.1 Wort-basiertes System

Ein Wort-basiertes [14] [26] System ubersetzt Eingaben Wort fur Wort. Al-

lerdings werden Satzgrenzen gewahrt. Anhand eines Beispiels lasst sich das

Wort-basierte System gut erklaren. Zuerst werden alle Worter mit all ihren

moglichen Ubersetzungen mitsamt ihren Frequenzen aus dem Corpus extra-

hiert. Daraufhin werden die Ubersetzungswahrscheinlichkeiten (Maximum

Likelihood Estimation) berechnet. In diesem Beispiel sind die ubersetzten

Worter also die, die die am haufigsten gemeinsam in Satzen mit ahnlichen

Wortern stehen. Der nachste Schritt ist die Zuweisung (alignment). An die-

ser Stelle werden die Quellsprachenworter mit den Zielsprachenwortern ver-

knupft. Allerdings gibt es einige Sonderfalle, da Quell- und Zielsprache nicht

Abbildung 1: Minimalbeispiel

immer dieselbe Satzstellung haben. Die folgenden Beispiele sind:”mehrere

Worter fur eins“, Wegfall eines Wortes und Einfugung eines Wortes.

10

Abbildung 2: “One-to-many”

Abbildung 3: “Dropping”

Abbildung 4: “Insert”

Die beste Ubersetzung (und damit auch das beste “alignment”) wird in

der maschinellen Ubersetzung mit Hilfe des “Expectation Maximization” [6]

11

(EM) Algorithmus gefunden. Anfangs werden alle Worter miteinander ver-

knupft.

Abbildung 5: Start

Daraufhin werden die Ubersetzungswahrscheinlichkeiten miteinbezogen, um

so unwahrscheinlichere Ubersetzungen auszuschließen.

Abbildung 6: Ubersetzungswahrscheinlichkeitsabgleich

Dies wird solange wiederholt, bis es keine doppelten Belegungen auf beiden

Sprachseiten gibt (wegen “One-to-many” ist es durchaus erlaubt, dass auf

einer Seite ein Doppeleintrag existiert).

12

Abbildung 7: sich wiederholende Schritte

13

2.2 Phrasen-basiertes System

Ein Phrasen-basiertes [15] [7] System ubersetzt eine Eingabe anhand von

Phrasen. Phrasen sind mehrere aneinandergereihte Worter. Anders als in der

klassischen Linguistik haben diese Phrasen allerdings keinen linguistischen

Wert. In der Linguistik werden Satzbausteine als Phrasen betitelt, sprich

Nominalphrasen (NP), Verbalphrasen (VP) und viele weitere. Jeder korrekte

Satz kann in solche Phrasen unterteilt werden. Diese Phrasen mussen auch

nicht zwingend Wort an Wort stehen. Falls die Unterteilung in linguistische

Phrasen nicht moglich ist, ist der Satz fehlerhaft. Eine Illustration des Satzes:

”Das ist ein korrekter, deutscher Satz.“ ist hier in einer C-Struktur, darge-

stellt mit dem XLE-Web Parser3, zu sehen:

Abbildung 8: Syntax-Baum (XLE-Web Parser) [31]

3XLE-Web Parser: http://iness.uib.no/xle-web/xle-web

14

Dies alles findet keinen Einzug in die phrasen-basierte Ubersetzung. Hier wird

strikt nach aufeinanderfolgenden Worten unterteilt. Anhand des obigen Bei-

spiels ware also”Das ist“ eine Phrase fur das Phrasen-basierte System. Um

die bestmoglichen Phrasen zu finden, sind mehrere Schritte notig. Es wird

auch bei dieser Methode Satz fur Satz gearbeitet, das heißt keine Phrase geht

uber die Satzgrenze hinaus. Zuerst wird nur Wort fur Wort ubersetzt bezie-

hungsweise die bestmogliche Ubersetzung fur jedes Wort gesucht. Danach

werden alle zusammenhangenden Worter als Phrasen gekennzeichnet, falls

sie das Alignment respektieren. Wenn dieser Prozess fur jeden Satz stattge-

funden hat, werden alle extrahierten Phrasen miteinander verglichen, um so

die besten zu ermitteln.

Abbildung 9: Beispiel Phrasenextraktion

Tritt eine Phrase ofter als andere auf, so wird die Phrase als besser beurteilt

und bekommt folglich einen hoheren Wahrscheinlichkeitswert als die ande-

ren. Die Wahrscheinlichkeit wird via relativer Frequenz errechnet.

P (f − f − f |e− e− e) = Frequenz(f−f−f,e−e−e)Frequenz(e−e−e)

f steht in diesem Fall fur “foreign”, e fur “english”. Der Ausdruck besteht aus

mehreren Eintragen, um den Unterschied zu einem Wort-basierten System

aufzuzeigen.

15

2.3 Baum-basiertes System

Ein Baum-basiertes [13] Ubersetzungssystem besteht ublicherweise aus einer

Mischung aus einem Phrasenbasiertem System mit der Zugabe einer Uber-

setzungsgrammatik. Es wird als Baum-basiert bezeichnet, da ein Satz mit

Hilfe dieser Grammatik in Baumnotation aufgeschrieben werden kann (siehe

Abbildung 8). Die Ubersetzungsgrammatik gibt Regeln vor, die beim Uber-

setzen beachtet werden mussen. Meistens geschieht dies durch Zuhilfenahme

einer Variablen. Ein einfaches Beispiel fur eine solche Regel ist:

drank X -> habe X getrunken

Diese Variablen werden”Nicht-Terminale“ genannt. Auf diese Art und Wei-

se wird die Satzstellung beim Ubersetzten optimiert und der Rechenaufwand

durch Reduzierung des alignments verringert. Es gibt mehrere Varianten der

Baum-basierten Systeme. Sie unterscheiden sich in der Art und Tiefe der

Grammatiken. Die fur diese Diplomarbeit wichtigen und auch aktuell meist

benutzten Varianten sind das hierarchische System und das syntaktische Sy-

stem. Ein hierarchisches Ubersetzungssystem ubersetzt Phrasen anhand von

Regeln, deren Variablen keinerlei linguistischen Hintergrund haben. Die ty-

pischen Regeln sind:

Wort-Ubersetzung

X -> Haus || house

Phrasale Ubersetzung

X -> rießengroß || very big

Mischung aus Nicht-Terminalen und Terminalen

X -> drank X || habe X getrunken

Technische Regeln

S -> S X || S X

16

Im Gegensatz dazu nutzt ein syntaktisches System Nicht-Terminale aus der

Linguistik. Die Regeln sehen in einem syntaktischem System deutlich detail-

lierter aus:

Regeln

V -> schlaft || sleeps

DET -> das || the

NN -> Haus || house

NP -> das NN || the NN

NP -> DET Haus || DET house

NP -> DET NN || DET NN

VP -> V || V

S -> NP VP || NP VP

==> S -> das Haus schlaft || the house sleeps

17

3 Implementierungen in MOSES

All die zuvor beschriebenen Systeme sind bereits in MOSES implementiert.

Die fur diese Arbeit wichtigen Systeme sind das Phrasen-basierte, das hier-

archische und das syntaktische System. An all diesen Systemen werden Mo-

difikationen, meistens an der Phrasentabelle beziehungsweise ihrem syste-

mabhangigen Aquivalent, durchgefuhrt, um die Synonyme in MOSES zu in-

tegrieren.

3.1 Aufbau eines Ubersetzungssystems in MOSES

Das benutzte Europarl-Corpus wird”tokenisiert“, “truecased” und bereinigt

(Satzlange 1-80 Worter). Die benutzten Tuning- und Testsets werden eben-

falls”tokenisiert“ und “truecased”, jedoch nicht bereinigt, da es sich um

Ubersetzungstexte handelt und ein maschinelles Ubersetzungssystem dazu

in der Lage sein muss, jeden Satz ubersetzten zu konnen.

Ist dieser Vorgang abgeschlossen, wird das Sprachmodell (“language model”)

trainiert. Das Sprachmodell sorgt dafur, dass der “output” des zu ubersetzen-

den Textes flussig ist. Es wird nur fur die Zielsprache benotigt. Das verwen-

dete Sprachmodell wurde mit “Kneser-Ney Smoothing” [11] geglattet und

besteht aus “1-grams”, “2-grams” und “3-grams”. “Smoothing” [33] wird

benutzt, um Worter, die unbekannt sind oder sehr niedrige Frequenzen ha-

ben, zu berucksichtigen. Dies wird meist durch Kontextwahrscheinlichkeiten

berechnet. Das heißt genauer: Wie oft kommt ein Wort in einem Fenster

(Kontext) von Wortern vor? Die “Smoothing”variante “Kneser-Ney Smoo-

thing” zieht Bigramme hinzu, was weiter dazu beitragt, einen korrekten und

schnellen “output” zu erhalten. Ein simples Beispiel:

I can’t drink without my .

“York” hat eine sehr hohe Frequenz und taucht vermutlich eben-

falls sehr oft mit “drink” auf.

I can’t drink without my York.

Allerdings tritt “York” fast ausschließlich mit “New” auf - “New

York”. Deshalb wird “York” stark geglattet und andere, niedrig

18

frequentiertere Worter konnen bevorzugt werden:

I can’t drink without my glass.

Der nachste Schritt ist das Training des Systems. Hierbei werden das “ali-

gnment”, die Phrasen-Extraktion, die Bewertung und das Erstellen der Phrasen-

beziehungsweise Regeltabellen durchgefuhrt.

Nun hat man ein vollstandiges Ubersetzungssystem, das zwar bereits uber-

setzen kann, was aber ohne richtige Gewichtungen der Werte keine guten

Ergebnisse liefern wird.

Durch kontinuierliches Verandern der Werte beim Ubersetzen eines Tuningsets

und dessen automatischer, maschineller Evaluation werden die Gewichte nach

und nach so eingestellt, dass die Ergebnisse moglichst gut werden.

Ist das Tuning abgeschlossen, kann das System benutzt werden.

19

3.2 Phrasen-basiertes System in MOSES

Das Phrasen-basierte in MOSES implementierte System besteht aus einer

Phrasentabelle (phrase-table), die zur Ubersetzung dient, und einer Konfi-

gurationsdatei (moses.ini), die Dateipfade, Steuerparameter und Gewichtun-

gen der Werte in der Phrasentabelle beinhaltet. Außerdem gibt es noch eine

optionale “reordering”-Tabelle, die dazu dient, Worter und Phrasen neu an-

zuordnen.

Eine Phrase einer Phrasentabelle ist in MOSES normalerweise in folgender

Form aufgebaut:

Prinzip ||| principle ||| 0.62531 0.513461 0.785047 0.834375 2.718 ||| 0-0 ||| 403 321 252

Die Bedeutungen der Werte sind:

Quellwort/phrase ||| Ubersetzungswort/phrase ||| inverse Phrasenubersetzungs-wahrscheinlichkeit,

inverse lexikalische Gewichtung, direkte Phrasenubersetzungs-wahrscheinlichkeit, direkte

lexikalische Gewichtung, Phrase penalty ||| Wort-zu-Wort Ausrichtung ||| Frequenz c(e)

c(f) c(e,f)

Prinzipien des ||| principle of the ||| 0.111111 0.00191967 0.125 0.00441933 2.718 ||| 0-0

1-1 1-2 ||| 9 8 1

Am Beispiel dieser Phrase lasst sich die Ausrichtung der Worter leicht ver-

anschaulichen:”Prinzipien“ wird mit “principle” ubersetzt(0-0),

”des“ sowohl

mit “of”, als auch mit “the” (1-1,1-2).

Die anderen Werte der Phrasen und Worter werden uber die Konfigurati-

onsdatei gewichtet. Das Format der “reordering”-Tabelle ist ahnlich wie das

Format der Phrasentabelle:

Prinzip ||| principle ||| 0.925049 0.009862 0.065089 0.550296 0.013807 0.435897

Die Bedeutungen [16] dieser Werte sind Wahrscheinlichkeiten dafur, dass

das Wort oder die Phrase alleine steht (mono), mit der vorigen oder darauf

folgenden getauscht wird (swap) oder (disc) an einer Stelle in der Zielsprache

unterbrochen wird und spater im ubersetzten Satz zu Ende ubersetzt wird.

20

Quellwort/phrase ||| Ubersetzungswort/phrase ||| mono vorige Phrase, swap vorige Phrase,

disc vorige Phrase, disc folgende Phrase, swap folgende Phrase, mono folgende Phrase

Abbildung 10: Beispiele fur mono, swap, disc

21

Eine typische Konfigurationsdatei in MOSES enthalt Gewichtungseintrage

zu jedem Wert der zugehorigen Phrasen in der Phrasentabelle:

# translation model weights

0.200000

0.200000

0.200000

0.200000

0.200000

Diese Gewichtungen sind naturlich je nach Ubersetzungsmodell und Da-

ten der Phrasentabelle unterschiedlich. Geandert werden sie nicht per Hand

und Evaluation sondern via Tuning. Tuning bedeutet das automatische Fin-

den der lokal besten Gewichte anhand mehrerer Testlaufe mit einem klei-

nen Paralleldaten-Trainingscorpus und der anschließenden Evaluation mit

einem Bewertungsalgorithmus (BLEU, TER, ...). Dies geschieht in MOSES

per Skriptaufruf eines Tuningalgorithmus’. Im Rahmen dieser Arbeit wurde

immer Minimum Error Rate Training (MERT) [24] benutzt. Hierbei wer-

den alle Gewichte zufallig gewertet, Ubersetzungen durchgefuhrt und deren

BLEU-Werte berechnet. Dieser Prozess wiederholt sich so oft, bis keine Ver-

besserung des BLEU-Wertes mehr stattfindet. Nach dem mehrmaligem Tu-

ning sehen die Gewichte folglich anders aus, da die Ergebnisse durch das

Tuning eine bessere Bewertung erhalten haben.

Beispielweise:

# translation model weights

0.0639631

0.0275183

0.0490561

0.0478582

0.0759107

22

3.3 Hierarchisches System in MOSES

Das hierarchische System ist entgegen der unterschiedlichen Art und Weise

des Ubersetzungssystems (Phrasen-basiert versus Baum-basiert) in MOSES

relativ ahnlich aufgebaut wie das Phrasen-basierte System. Als Grundlage

dient ein “rule-table”, der die gleichen lexikalischen Informationen enthalt,

die auch die Phrasentabelle enthalt. Ebenfalls gibt es auch eine moses.ini,

die auch hier die Steuerung der Gewichte und der Konfiguration ubernimmt.

Lediglich der “Reorderingtable” fallt weg. Die”Grammatik“des Systems ist

in der “glue-grammar” zu finden. Eine Regel aus dem “rule-table” sieht so

aus:

Prinzip [X] ||| principle [X] ||| 0.288774 0.182108 0.745215 0.802217 2.718 ||| 0-0 ||| 10787

4180 311

Die Integration des Zeichens ’[X]’ kennzeichnet das hierarchische System in

MOSES.

Die linguistische Bedeutung fur diese Schreibweise ist:

X —> Prinzip | X —> principle

Naturlich gilt dieses Format ebenfalls fur komplexere Phrasen, das Prinzip,

das dahinter steckt, bleibt jedoch das selbe:

[X][X] wie [X] ||| [X][X] in how [X] ||| 0.233608 0.31823 0.000115895 0.000506413 2.718

||| 0-0 1-1 1-2 ||| 16.9292 34124 3.954

Die Bedeutungen der Werte entsprechen denen der Phrasentabelle:

Quellwort/phrase ||| Ubersetzungswort/phrase ||| inverse Phrasenubersetzungs-wahrscheinlichkeit,

inverse lexikalische Gewichtung, direkte Phrasenubersetzungs-wahrscheinlichkeit, direkte

lexikalische Gewichtung, Phrase penalty ||| Wort-zu-Wort Ausrichtung ||| Frequenz c(e)

c(f) c(e,f)

23

Die Grammatikdatei “glue-grammar” ist im Normalfall relativ kurz gehalten.

Eine typische Grammatik ist:

<s>[X] ||| <s>[S] ||| 1 ||| ||| 0

[X][S] </s>[X] ||| [X][S] </s>[S] ||| 1 ||| 0-0 ||| 0

[X][S] [X][X] [X] ||| [X][S] [X][X] [S] ||| 2.718 ||| 0-0 1-1 ||| 0

Die Steuerungsdatei ist bis auf die Umstellung auf den Eingabetypen der

Daten und das Ubersetzungsmodell ebenfalls identisch mit der des Phrasen-

basierten Modells. Training und Tuning konnen allerdings nicht ubernommen

werden, sondern mussen mit den selben Ausgangsdaten neu ausgefuhrt wer-

den. Der Rechenaufwand ist im Gegensatz zum Phrasen-basierten System

merklich hoher, da durch die zusatzlichen Grammatikregeln mehr Rechenlei-

stung beansprucht wird.

24

3.4 Syntaktisches System in MOSES

Das syntaktische System in MOSES ist komplexer als das Phrasen-basierte

und das hierarchische System. Die Regeltabelle ist nicht wie im hierarchi-

schen Modell mit Nicht-Terminalen ohne linguistischen Hintergrund verse-

hen, sondern mit korrekten, linguistischen Nicht-Terminalen. Um dies zu be-

werkstelligen, muss dafur das Trainingscorpus mit einem Parser, der jedes

Wort und jeden Satz mit einem linguistischen Nicht-Terminal versieht, ge-

parsed werden. Als Parser wird der BerkeleyParser [36] [28] [29] verwendet.

Der BerkeleyParser hat sowohl eine deutsche Grammatik, als auch eine na-

tive MOSES Unterstutzung in Form eines Wrappers (passt die Ausgabe des

Parsers an MOSES an) und gilt als allgemein sehr verlasslich. Dadurch ist

jeder Satz durch einen Baum (siehe Abbildung 8) darstellbar. Jedoch dient

ein solcher Baum nur zur Veranschaulichung und spielt fur das System keine

große Rolle. Viel mehr geht es darum, dass jeder Satz so seine grammatische

Gesamtheit intakt halt und keine Satze beim Ubersetzen entstehen sollen,

die grammatikalisch falsch sind. Ein”geparseter“ Beispielsatz:

”Im Parlament besteht der Wunsch nach einer Aussprache im Verlauf dieser

Sitzungsperiode in den nachsten Tagen.“

sieht nach dem Parsen dann so aus:

(TOP(S-TOP(PP-MOV(APPRART-AC-Dat.Sg.Neutin Im)(NN-

HD-Dat.Sg.Neut Parlament))(VVFIN-HD-Sg besteht)(NP-SBSg(ART-

HD-Nom.Sg.Masc der)(NN-HD-Nom.Sg.Masc Wunsch)(PP-MNRN(APPR-

ACDat nach)(ART-HD-Dat.Sg.Fem einer)(NN-HD-Dat.Sg.Fem

Aussprache)))(PP-MOV(APPRART-AC-Dat.Sg.Mascin im)(NN-

HD-Dat.Sg.Masc Verlauf)(NP-AG(PDAT-HD-Gen.Sg.Fem die-

ser)(NN-HD-Gen.Sg.Fem Sitzungsperiode)))(PP-MOV(APPR-

ACDatin in)(ART-HD-Dat.Pl.Masc den)(ADJA-HD-Sup.Dat.Pl.Masc

nachsten)(NN-HD-Dat.Pl.Masc Tagen)))($. .))

Das Parsen ist sowohl auf Quellseite, als auch auf Zielseite moglich. In die-

ser Arbeit wird nur die Quellseite”geparset“. Das entstehende System wird

“TreeToString‘” genannt, da die”geparsete“ Seite (Tree) in eine nicht

”ge-

parsete“ Seite (String) uberfuhrt wird. Die Zielseite ist somit identisch mit

25

dem Format des hierarchischen Systems. Die Dateistruktur ist der des hier-

archischen Modells sehr ahnlich: rule-table, moses.ini, glue-grammar.

Eine Phrase sieht nun so aus:

gemeinsamer Interessen [NP] ||| of common interest [X] ||| 0.0126582 0.00109454 0.0625

0.00279748 2.718 ||| 0-1 1-2 ||| 158 32

wenigstens im Parlament [NP][X] erheben [VP] ||| raise [NP][X] , at any rate here in

Parliament [X] ||| 1 3.89968e-06 0.5 7.84512e-14 2.718 ||| 0-3 1-7 2-8 3-1 4-0 ||| 0.5 1 0.5

Es gibt im syntaktischen System (in diesem Falle TreeToString) exakte Re-

geln, wie die Ubersetzung stattzufinden hat. In der Linguistik sahen diese

beiden Regeln aus:

NP —> gemeinsamer Interessen | X —> common interest

VP —> wenigstens im Parlament NP X erheben | X —> raise NP X, at any rate here in Parliament

Die Grammatikdatei “glue-grammar” ist in diesem System identisch zu der

Grammatik des hierarchischen Systems:

<s>[X] ||| <s>[S] ||| 1 ||| ||| 0

[X][S] </s>[X] ||| [X][S] </s>[S] ||| 1 ||| 0-0 ||| 0

[X][S] [X][X] [X] ||| [X][S] [X][X] [S] ||| 2.718 ||| 0-0 1-1 ||| 0

Ein “TreeToTree”-System hingegen hatte eine deutlich detailliertere Gram-

matik: (Auszug)

<s>[X] ||| <s>[Q] ||| 1 |||

[X][Q] </s>[X] ||| [X][Q] </s>[Q] ||| 1 ||| 0-0

<s>[X][adjp] </s>[X] ||| <s>[X][adjp] </s>[Q] ||| 1 ||| 1-1

<s>[X][advp] </s>[X] ||| <s>[X][advp] </s>[Q] ||| 1 ||| 1-1

<s>[X][cc] </s>[X] ||| <s>[X][cc] </s>[Q] ||| 1 ||| 1-1

<s>[X][cd] </s>[X] ||| <s>[X][cd] </s>[Q] ||| 1 ||| 1-1

Andere Abweichungen liegen nur in der Steuerdatei vor. Wie auch bei den

anderen Systemen benotigt es wiederum ein erneutes Training und Tuning

fur dieses System, das von den drei beschriebenen Systemen aufgrund der

vielen Regeln mit Abstand die hochste Rechenleistung beansprucht, jedoch

auch eine deutlich geringere Große in der Regeltabelle aufweist.

26

3.5 Technischer Uberblick uber die generierten MO-

SES Systeme und Daten

Die Systeme wurden alle mit den gangigen Einstellungen und MOSES Hilfs-

mitteln erstellt. Außerdem wurden die Test- und Tuningsets sowie die ent-

standenen Ubersetzungen mit Hilfe eines Pythonscripts normalisiert (Akzen-

te und storende Sonderzeichen umgewandelt), um Encodingfehlern bei der

Auswertung vorzubeugen. Beispiel:”Lukas Kaucky“ ==>

”Lukas Kaucky“

Allgemeine Daten:

Corpus (Europarl-v7): 1885894 Satze

Tuningset (Newstest-2008): 2051 Satze

Testset (Newstest-2011): 3003 Satze

Language Model: 3-gram, improved Kneser-Ney [11]

Phrasen-basiert:

Corpus (Europarl-v7): tokenized, truecased, cleaned (Lange 1-80)

Test- und Tuningsets: tokenized, truecased, normalisiert

Training: -alignment grow-diag-final-and -reordering msd-bidirectional-fe

Hierarchisch:

Corpus (Europarl-v7): tokenized, truecased, cleaned (Lange 1-80)


Training: -alignment grow-diag-final-and

Syntax:

Corpus (Europarl-v7): tokenized, ,truecased, cleaned (Lange 1-80), geparsed mit Ber-

keleyParser


Training: -alignment grow-diag-final-and

27

3.6 Einspeisung der Thesaurusdaten in MOSES

Um MOSES mit Hilfe der Synonymdaten zu verbessern, mussen die Synonym-

informationen ihren Weg in MOSES finden. Mit Hilfe eines selbst geschriebe-

nen Pythonskripts werden die Daten in die Phrasentabelle von MOSES inte-

griert. Hierzu werden sowohl neue Eintrage in die Phrasentabelle beziehungs-

weise Regeltabelle aufgenommen als auch ein neuer Wert zu allen bereits

bestehenden hinzugefugt. Dieser Wert soll bei der Ubersetzung mitberuck-

sichtigt werden, um die Qualitat zu verbessern. Die Gewichtung des neuen

Wertes wird anfangs auf einen zufalligen Wert gesetzt und spater durch das

Tuning automatisch angepasst, sodass die hochste Verbesserung der Uber-

setzung stattfindet. Die verschiedenen Methoden, um ein Synonym zu einem

Quellwort zu finden, basieren auf den Korpusfrequenzen der Synonyme. So

werden fur jedes Quellwort, fur das ein Synonym gefunden werden soll, alle

semantischen Gruppen aus OpenThesaurus extrahiert und je nach Methode

Synonyme aus der Gruppe extrahiert und in die Phrasen- beziehungsweise

Regeltabelle eingefugt.

Die Methoden, die benutzt werden, sind:

Hochste Frequenz: Es wird nur ein Synonym pro semanti-

scher Gruppe pro Wort gesucht. Das Zielsynonym hat hierbei die

hochste Frequenz. Diese Form der Synonymauswahl soll fur die

hochste Qualitat bei sehr allgemeinen Domanen sorgen, da nur

Synonyme integriert werden, die sehr haufig gebraucht werden.

Sehr spezifische Domanen werden vermutlich weder einen großen

Qualitatszuwachs noch eine Erhohung der “OOV-Rates” bekom-

men.

Alle Synonyme: Es werden alle Synonyme aus jeder semanti-

schen Gruppe des Anfragewortes integriert. Diese Methode stei-

gert vor allem die OOV-Rates. Da keinerlei Auswahl stattfindet

und die Synonyme”nur“ durch die Corpusfrequenzen beschrankt

werden, kann die Ubersetzungsqualitat starker abnehmen, wenn

das Tuning nicht sehr genau das richtige Gewicht bestimmt.

Treshhold 50: Es werden diejenigen Synonyme aus jeder seman-

28

tischen Gruppe des Anfragewortes integriert, die mindestens eine

Corpusfrequenz von 50 haben. Mit dieser Methode sollen sehr

seltene Worter wegfallen, um die Problematik der”Alle Synony-

me“ Methode abzuschwachen, die OOV-Rates jedoch immer noch

stark zu erhohen.

Treshhold 1000: Es werden diejenigen Synonyme aus jeder se-

mantischen Gruppe des Anfragewortes integriert, die mindestens

eine Corpusfrequenz von 1000 haben. Die Corpusfrequenz 1000

ist nach einer Corpusanalyse ein guter Durchschnittswert, um

Worter zu erfassen, die zwar tatsachlich im Sprachgebrauch ge-

nutzt werden, jedoch dennoch oft genug in kleineren Parallelcor-

pora fehlen. Eine Datenbankabfrage mit einer Frequenzreichweite

von 999 - 1001 bei Nomen liefert:

Formierung, Grundpfeiler, Statistiker, Bundesgesund-

heitsministerium, Gestaltungen, Außenministerin, Bits,

Geldmangel, Brise, usw..

Diese Begriffe sind alle noch im alltaglichen Sprachgebrauch zu

finden, werden jedoch nicht so haufig verwendet. Stellt man die-

selbe Abfrage mit einer Frequenzreichweite von 99-101, so werden

folgende Begriffe genannt:

Bundespersonalvertretungsgesetz, Streitlust, Tropenme-

diziner, Gesamtsozialversicherungsbeitrag, Kariesprophy-

laxe, usw..

Man erkennt, dass diese Begriffe sehr viel spezifischer sind - ver-

mutlich zu spezifisch, um in einer Ubersetzung benutzt zu werden.

Ahnlich wie bei der”hochsten Frequenz“-Methode sind mit dieser

Methode qualitativ bessere Ergebnisse zu erwarten.

Zur Veranschaulichung dient ein Auszug zur Methode”hochste Frequenz“ aus

OpenThesaurus mitsamt den Korpusfrequenzen der einzelnen Eintrage am

Beispiel des Wortes”Rechner“:

29

Query: Rechner

Group 1

Computer 47522

Rechner 19960

Datenverarbeitungsanlage 128

Rechenknecht 47

Universalrechner 30

Elektronengehirn 28

Elektronenhirn 10

>> Computer

Group 2

Rechner 19960

Taschenrechner 1004

Rechenmaschine 395

>> Rechner

Group 3

System 99337

Rechner 19960

Maschine 17995

Kiste 5489

Personalcomputer 272

Komplettsystem 59

>> System

30

Die Ergebnisse mit der hochsten Frequenz fur das Beispiel”Rechner“ sind

”Computer“,

”Rechner“ und

”System“. Eine kleine Phrasentabelle mit der

Anfrage”Rechner“ ergibt:

Rechner ||| a computer ||| 0.0222222 0.0336134 0.0625 0.00945555 2.718 ||| 0-1 ||| 45 16 1

Rechner ||| computer try ||| 0.25 0.0336134 0.0625 0.000101 2.718 ||| 0-0 ||| 4 16 1

Rechner ||| computer ||| 0.0721649 0.0336134 0.4375 0.5 2.718 ||| 0-0 ||| 97 16 7

Rechner ||| computers ||| 0.0138889 0.0277778 0.125 0.25 2.718 ||| 0-0 ||| 144 16 2

Rechner ||| machines ||| 0.0169492 0.0140845 0.0625 0.0625 2.718 ||| 0-0 ||| 59 16 1

Rechner ||| mainframe computer ||| 1 0.116807 0.0625 0.03125 2.718 ||| 0-0 0-1 ||| 1 16 1

Rechner ||| thinking computers ||| 1 0.0277778 0.0625 3.625e-05 2.718 ||| 0-1 ||| 1 16 1

Um die Einspeisung in MOSES abzuschließen, werden zwei bereits ange-

schnittene Schritte durchgefuhrt. Zuerst werden die extrahierten Synonyme

in die originale Phrasentabelle kopiert und daraufhin wird ein sechster Wert

fur alle Phrasenpaare eingefuhrt. Dieser Wert errechnet sich aus 95% [3] der

Korpusfrequenz. Synonyme eines Wortes stimmen in den meisten Fallen se-

mantisch mit ihrem Ursprungswort uberein. Die Reduktion des neuen Wertes

auf 95% scheint deshalb sinnvoll, da so das Originalwort zwar einen hoher-

en Stellenwert bekommt, die Synonyme jedoch nicht zu stark beschnitten

werden. Ein kompletter Eintrag, der aus”Rechner“ entsteht, sieht in der

modifizierten Phrasentabelle wie folgt aus:

Rechner ||| a computer ||| 0.0222222 0.0336134 0.0625 0.00945555 2.718 18962 ||| 0-1 ||| 45

16 1

Rechner ||| computer try ||| 0.25 0.0336134 0.0625 0.000101 2.718 18962 ||| 0-0 ||| 4 16 1

Rechner ||| computer ||| 0.0721649 0.0336134 0.4375 0.5 2.718 18962 ||| 0-0 ||| 97 16 7

Rechner ||| computers ||| 0.0138889 0.0277778 0.125 0.25 2.718 18962 ||| 0-0 ||| 144 16 2

Rechner ||| machines ||| 0.0169492 0.0140845 0.0625 0.0625 2.718 18962 ||| 0-0 ||| 59 16 1

Rechner ||| mainframe computer ||| 1 0.116807 0.0625 0.03125 2.718 18962 ||| 0-0 0-1 ||| 1

16 1

Rechner ||| thinking computers ||| 1 0.0277778 0.0625 3.625e-05 2.718 18962 ||| 0-1 ||| 1 16

1

Computer ||| a computer ||| 0.0222222 0.0336134 0.0625 0.00945555 2.718 45145.9 ||| 0-1

||| 45 16 1

31

Computer ||| computer try ||| 0.25 0.0336134 0.0625 0.000101 2.718 45145.9 ||| 0-0 ||| 4 16

1

Computer ||| computer ||| 0.0721649 0.0336134 0.4375 0.5 2.718 45145.9 ||| 0-0 ||| 97 16 7

Computer ||| computers ||| 0.0138889 0.0277778 0.125 0.25 2.718 45145.9 ||| 0-0 ||| 144 16

2

Computer ||| machines ||| 0.0169492 0.0140845 0.0625 0.0625 2.718 45145.9 ||| 0-0 ||| 59 16

1

Computer ||| mainframe computer ||| 1 0.116807 0.0625 0.03125 2.718 45145.9 ||| 0-0 0-1

||| 1 16 1

Computer ||| thinking computers ||| 1 0.0277778 0.0625 3.625e-05 2.718 45145.9 ||| 0-1 ||| 1

16 1

System ||| a computer ||| 0.0222222 0.0336134 0.0625 0.00945555 2.718 94370.15 ||| 0-1

||| 45 16 1

System ||| computer try ||| 0.25 0.0336134 0.0625 0.000101 2.718 94370.15 ||| 0-0 ||| 4 16 1

System ||| computer ||| 0.0721649 0.0336134 0.4375 0.5 2.718 94370.15 ||| 0-0 ||| 97 16 7

System ||| computers ||| 0.0138889 0.0277778 0.125 0.25 2.718 94370.15 ||| 0-0 ||| 144 16 2

System ||| machines ||| 0.0169492 0.0140845 0.0625 0.0625 2.718 94370.15 ||| 0-0 ||| 59 16 1

System ||| mainframe computer ||| 1 0.116807 0.0625 0.03125 2.718 94370.15 ||| 0-0 0-1 ||| 1

16 1

System ||| thinking computers ||| 1 0.0277778 0.0625 3.625e-05 2.718 94370.15 ||| 0-1 ||| 1

16 1

Worter, die nicht in den zur Frequenzbestimmung benutzten Corpora vor-

kommen, werden mit dem Wert”0“ an der sechsten Stelle versehen. Darunter

fallen zwangsweise auch Phrasen. Die Einspeisung in die anderen Systeme

funktioniert auf die gleiche Art und Weise, allerdings wird im hierarchischen

und syntaktischen System naturlich die grammatische Struktur beibehalten.

32

3.7 Morphologische Erweiterung fur alle Systeme

Um die Synonymsuche zu erweitern und sie einer zusatzlichen Fehlerkorrek-

tur zu unterziehen, ist es moglich, mit einem morphologischen Analysetool

zu arbeiten. Hierzu bietet sich SMOR [32] an. Mit dem Programm ist es

moglich, jedes Wort in seinen Wortstamm zu zerlegen.

>Hubschraubereinsatzzentrale

Hubschrauber<NN>Einsatz<NN>Zentrale<+NN><Fem><Nom><Sg>

Hubschrauber<NN>Einsatz<NN>Zentrale<+NN><Fem><Gen><Sg>

Hubschrauber<NN>Einsatz<NN>Zentrale<+NN><Fem><Dat><Sg>

Hubschrauber<NN>Einsatz<NN>Zentrale<+NN><Fem><Acc><Sg>

Naturlich wird fur die Synonymsuche nur ein Teil dieser Analyse benotigt,

denn es macht keinen Sinn, ein Kompositum wie”Hubschraubereinsatzzen-

trale“ in seine Einzelteile zu zerlegen, um fur diese ein Synonym zu suchen.

SMOR kann fur die Synonymsuche lediglich dazu benutzt werden, um die

morphologische Form eines Wortes zu bestimmen, es auf die Lemmaform

zu bringen, um dann ein Synonym zu suchen, das in die Ausgangsform des

gesuchten Wortes gebracht werden kann. Beispiel:

Ausgangswort: Balle

Thesaurus Query: Balle

Balle nicht im Thesaurus vorhanden

SMOR:

>Balle

Ball<+NN><Masc><Nom><Pl>

Ball<+NN><Masc><Gen><Pl>

Ball<+NN><Masc><Acc><Pl>

Thesaurus Query: Ball

Ball 22328

Tanzabend 138

33

Tanzveranstaltung 127

Tanzfest 73

Tanzerei 23

SMOR:

>Tanzabend

Tanz<NN>Abend<+NN><Masc><Nom><Sg>

Tanz<NN>Abend<+NN><Masc><Dat><Sg>

Tanz<NN>Abend<+NN><Masc><Acc><Sg>

Ausgangswort Features: Ball<+NN><Masc><Nom><Pl>

Zielwort Features: Tanzabend<+NN><Masc><Nom><Pl>

SMOR:

>Tanz<NN>Abend<+NN><Masc><Nom><Pl>

Tanzesabende

Tanzabende

Tanzeabende

Query Corpusfrequeny:

Tanzesabende -

Tanzabende NN 72

Tanzeabende -

Diese Schritte bringen das Ergebnis, dass”Tanzabende“ ein Synonym von

”Balle“ ist. Der letzte Schritt der Uberprufung der Corpusfrequenz ist des-

halb notwendig, da die Generationsheuristik von SMOR oftmals bei Kompo-

sita ubergeneriert und Worter bildet, die es so nicht gibt. Dieser komplette

Prozess fuhrte am Beispiel Europarl zu 162 weiteren Lemmaformen, die durch

Synonyme ersetzt werden konnten. Keines der Worter befand sich im Testset

Newstest2011.

34

4 Evaluation

Durch die Wahl des Testsets (Newstest 2011) erzielten alle getesteten Syste-

me relativ niedrige BLEU- und TER-Scores. In diesem Testset sind sehr viele

”seltene“ Worter und

”ausgefallene“ Worter wie

”Ordensschwester, Spezial-

heim, Ortsregierung, Sozialmaßnahme“, die erstens in EuroParl (und vielen

anderen Corpora) nicht vorkommen und zweitens auch sehr selten von Syn-

onymen erganzt werden konnen. Bei Vorab-Testlaufen mit kleineren Corpora

konnten sowohl hohere Scores als auch geringere Verschlechterungen beob-

achtet werden. Die Einfuhrung eines sechsten Gewichtes, der Corpusfrequenz,

beeinflusste die Qualitat der getesteten Systeme trotz des Wertes”0“ bei

Phrasen nach ausreichendem Tuning nicht negativ.

4.1 Quantitative Analyse

Interessant sind die Unterschiede der fehlenden Worter. In der Originaluber-

setzung fehlen einige Worter, die nicht sehr”exotisch“ sind. Das Fehlen die-

ser Wortergruppe konnte durch das Einfugen der Synonyme beseitigt wer-

den. Besonders ausgefallene Worter, vor allem lange Komposita, wie”Staats-

haushaltsverschuldung, FIFA-Hauptsponsoren, Online-Game-Wettbewerbe“

blieben weiterhin unerkannt und nicht ubersetzbar.

Die durch die Modifikationen hinzugefugten, komplett fehlenden Worter sind:

(”-” bedeutet, dass alle Worter, die bei”allen Synonymen“ stehen bis auf die

Worter, die ein ”-”Zeichen haben, hinzugefugt worden sind)

Alle Synonyme:

Wundbrand, bewegungslos, betrinken, Dispatcher, Geschoss, Mi-

nustemperaturen, Demo, Schotter, Glasblaser, erspahen, Außen-

border, Geldhaus, Hugellandschaft, Pusher, Kreme, Schulbuch,

Forschungsanstalt, Muhsal, Geburtsjahr, Pappkarton, Erzahlung,

Spielzeit, verstoffwechseln, Dorada, Hotelbesitzer, Justizgebaude,

Schneeschmelze, H2O, Zeitverschiebung, Unstetigkeit

35

Treshhold 50:

-Wundbrand, -Dispatcher, -Pusher, -Kreme, -verstoffwechseln, -

H2O

Treshhold 1000:

-Wundbrand, -bewegungslos, -betrinken, -Dispatcher, -Geschoss,

-Minustemperaturen, -Schotter, -Glasblaser, -erspahen, -Außenborder,

-Geldhaus, -Hugellandschaft, -Pusher, -Kreme, -Schulbuch, -Forschungsanstalt,

-Muhsal, -Geburtsjahr, -Pappkarton, -verstoffwechseln, -Dorada,

-Hotelbesitzer, -Justizgebaude, -Schneeschmelze, -H2O, -Zeitverschiebung,

-Unstetigkeit

Hochste Frequenz:

-Wundbrand, -bewegungslos, -betrinken, -Dispatcher, -Geschoss,

-Minustemperaturen, -Demo, -Schotter, -erspahen, -Geldhaus, -

Hugellandschaft, -Pusher, -Kreme, -Schulbuch, -Forschungsanstalt,

-Muhsal, -Geburtsjahr, -Pappkarton, -Spielzeit, -verstoffwechseln,

-Hotelbesitzer, -Justizgebaude, -H2O, -Unstetigkeit

36

4.2 Phrasen-basiertes System

Phrasen- und Reorderingtabelle BLEU TERTextOOV

VocabOOV

Original 18.67 0.6414 0.2170 0.0117

Modifiziert (hochste Frequenz) 17.68 0.6513 0.2163 0.0116

Modifiziert (alle Synonyme) 17.64 0.6485 0.2150 0.0114

Modifiziert (Treshhold 50) 17.67 0.6483 0.2154 0.0115


Tabelle 1: Ergebnisse fur das Phrasen-basiertes System

Systeme Original Ho. Fr. Alle Syn. TH 50 TH 1000

Original x 0 0 0 0Hochste Frequenz 0 x 0.335 0.356 0.114

Alle Synonyme 0 0.335 x 0.058 0Treshhold 50 0 0.356 0.058 x 0.002

Treshhold 1000 0 0.114 0 0.002 x

Tabelle 2: Statistische Signifikanz (Werte <= 0.05 bedeuten Signifikanz)Phrasen-basiert

37

4.3 Hierarchisches System

Regeltabelle BLEU TERTextOOV

VocabOOV

Original 18.19 0.6473 0.2163 0.0116





Tabelle 3: Ergebnisse fur das hierarchische System


Original x 0.042 0.036 0.035 0.024Hochste Frequenz 0.042 x 0.183 0.210 0.182

Alle Synonyme 0.036 0.183 x 0.211 0.345Treshhold 50 0.035 0.210 0.211 x 0.402

Treshhold 1000 0.024 0.182 0.345 0.402 x

Tabelle 4: Statistische Signifikanz (Werte <= 0.05 bedeuten Signifikanz)hierarchisches System

38

4.4 Syntaktisches System

Regeltabelle BLEU TERTextOOV

VocabOOV

Original 16.38 0.6634 0.2168 0.0116





Tabelle 5: Ergebnisse fur das syntaktische System


Original x 0 0 0 0Hochste Frequenz 0 x 0.168 0.152 0.177

Alle Synonyme 0 0.168 x 0.147 0.374Treshhold 50 0 0.152 0.147 x 0.145

Treshhold 1000 0 0.177 0.374 0.145 x

Tabelle 6: Statistische Signifikanz (Werte <= 0.05 bedeuten Signifikanz)Syntax System

39

4.5 Qualitative Analyse

Kein System konnte mit einer der angewandten Methoden verbessert werden.

Lediglich die OOV-Rates konnten, wie erwartet, gesenkt werden. Die besten

BLEU- und TER-Werte der Modifikationen konnten “Threshhold 1000” und

”hochste Frequenz“ erzielen, die niedrigsten OOV-Rates naturlich die

”al-

le Synonyme“ Methode. Dies spiegelte sich auch in der Große der Phrasen-

beziehungsweise Regeltabellen wider. “Threshhold 1000” und”hochste Fre-

quenz“ sind in allen drei Systemen von ahnlicher Große, decken jedoch un-

terschiedliche Synonymdomanen ab. Bei den Methoden, bei denen sehr viele

Synonyme in die Tabellen integriert wurden, waren die Ergebnisse schlechter.

Die hoheren Qualitatseinbußen liegen vor allem daran, dass eigentlich”gu-

te“ Ubersetzungen durch”schlechte“ Ubersetzungen ubertrumpft werden auf

Grund hoherer Corpusfrequenzen. Die drei benutzten Systeme unterscheiden

sich zwar stellenweise in ihren Ubersetzungen, jedoch nur geringfugig. Das

Phrasen-basierte und das hierarchische System erzeugten generell sehr ahn-

liche Ubersetzungen. Das syntaktische System, das die schlechtesten BLEU-

und TER-Werte hatte, erzeugte oft eine sich im Satzbau unterscheidende

Ubersetzung.

40

Systeme UbersetzungsbeispieleReferenz (1) After the New Year the vast majority of dwellings

with non-market rent in the Czech Republic will besubject to deregulation.(2) However, if the parties fail to agree on the lease, anindependent tribunal will have to establish the rent.

Phrasen-basiert (1) After the New Year is this deregulation the ma-jority of renting in the Czech Republic before, whosetenants not been market-oriented rent pay.(2) Should the Mietparteien but not on the new rentsome, it will set by an independent court.

Hierarchisch (1) After the New Year is this deregulation the ma-jority of renting in the Czech Republic before, whosetenants not been market-oriented rent pay.(2) Should the Mietparteien but not on the new rentsome, it will set by an independent court.

Syntax-basiert (1) After the New Year is this deregulation the ma-jority of renting in the Czech Republic before, theirtenants so far no market-oriented rent pay.(2) Should be the Mietparteien but not on the newrent some, will it by an independent court established.

Tabelle 7: Ubersetzungsbeispiele der einzelnen Systeme im Originalzustand

41

Die Unterschiede der verschiedenen Modifikationen (und warum die Qualitat

unter zu vielen Synonymen leidet) werden aus folgender Tabelle deutlich:

Modifikationen UbersetzungsbeispieleReferenz After the New Year the vast majority of dwellings

with non-market rent in the Czech Republic willbe subject to deregulation.

Original After the New Year is this deregulation the majo-rity of renting in the Czech Republic before, whosetenants not been market-oriented rent pay.

Hochste Frequenz After the New Year is this deregulation most ren-ting before in the Czech Republic, whose tenantsstill no market-oriented rent regulate.

Alle Synonyme After the New Year is this deregulation most ren-ting before in the Czech Republic, whose tenantsstill no market-oriented bunker pay.

Treshhold 50 After the New Year is this deregulation most ren-ting before in the Czech Republic, whose tenantsstill no market-oriented rent pay.

Treshhold 1000 After the New Year is this deregulation most ren-ting before in the Czech Republic, whose tenantsstill no market-oriented rent pay.

Tabelle 8: Ubersetzungsbeispiele der modifizierten Systeme(Phrasen-basiert)

Kurze, oft genutzte Worter wie hier “not been” werden in allen Modifika-

tionen zu “still no”, was noch kein großes Problem darstellt, da die Be-

deutung tatsachlich sehr ahnlich ist. Eine sehr seltsame Ubersetzung findet

sich im Beispiel fur alle Frequenzen:”Miete“ wird nicht mit “rent”, son-

dern mit “bunker” ubersetzt. Diese Ubersetzung kommt zustande, da”Mie-

te“ tatsachlich ein Synonym fur Bunker ist (Miete; Vorratsgrube; Bunker;

Erdbunker) und daraufhin in der Phrasentabelle ein Eintrag vorhanden ist,

der Miete mit der Ubersetzung fur Bunker (eng: bunker) ubersetzt. Da die

Ubersetzung “bunker” fur”Bunker“ sehr gut ist und es nun einen Eintrag

mit identischen Werten - bis auf die Corpusfrequenz - gibt, wird Miete nun

42

nicht mehr mit “rent” ubersetzt, sondern mit “bunker”. Die Corpusfrequenz,

die bei Miete zwar hoch ist (Miete NN 9609) und bei Bunker relativ klein

(Bunker NN 2621), reicht aber aufgrund der durch das Tuning festgelegten

niedrigen Gewichtung nicht aus, um die anderen, hoheren Werte fur die Ein-

trage von Miete zu bevorzugen.

Miete ||| bunker ||| 0.5 0.125 0.75 0.8 2.718 2489.95 ||| 0-0 ||| 6 4 3

...

Miete ||| rent ||| 0.377358 0.266667 0.322581 0.615385 2.718 9609 ||| 0-0 ||| 53 62 20

Dieses Beispiel macht deutlich, warum zu viele Synonyme storend sein konnen.

43



Original After the New Year is this deregulation the majo-rity of renting in the Czech Republic before, whosetenants not been market-oriented rent pay.

Hochste Frequenz Following this deregulation New Year is most ren-ting in the Czech Republic, before their tenants,so far not paying rent market-oriented.

Alle Synonyme Following this deregulation New Year is most ren-ting in the Czech Republic, before their tenants,so far not paying rent market-oriented.

Treshhold 50 Following this deregulation New Year is most ren-ting in the Czech Republic, before their tenants,so far not paying rent market-oriented.

Treshhold 1000 Following this deregulation New Year is most ren-ting in the Czech Republic, before their tenants,so far not paying rent market-oriented.

Tabelle 9: Ubersetzungsbeispiele der modifizierten Systeme (hierarchischesSystem)

Die Verwendung des hierarchischen Systems schrankte durch die in der Re-

geltabelle enthaltenen Ubersetzungsregeln die Varianz etwas ein. Das obige

Beispiel wurde bei allen Modifikationen gleich ubersetzt. Die Regeln tragen

ebenfalls dazu dabei, dass die Grammatik zumindest teilweise korrekt bleibt

und die modifizierten Systeme eine grammatikalisch bessere Ubersetzung

des letzten Teilsatzes liefern. “... whose tenants not been market-oriented

rent pay” ist semantisch identisch mit “... their tenants, so far not pay-

ing rent market-oriented”, jedoch grammatikalisch schlechter. Im Gegensatz

zum Phrasen-basierten System lagen die Ergebnisse der Modifkationen naher

beieinander. Der Qualitatsverlust fiel deutlich geringer aus. Dies ist auf die

Inklusion der Regeln zuruckzufuhren. Deshalb gibt es beim hierarchischen

System auch einige Positivbeispiele fur das Einspeisen vieler Synonyme.

44

Modifikationen UbersetzungsbeispieleHierarchisch

Referenz There is also a device that beats the finishedice cream mixture to a creamy consistencywhile cooling it to negative temperatures.

Original There is also a device, in which the ready-made Eis-Mischung Minustemperaturen atthe same time cremig beaten and cooling.

Hochste Frequenz There is also a device, in the same time theready-made Eis-Mischung cremig Minustem-peraturen on beaten and cooling.

Alle Synonyme There is also a device, in the same time theready-made Eis-Mischung cremig beaten andto frost cooling.

Treshhold 50 There is also a device, in the same time theready-made Eis-Mischung cremig beaten andto frost cooling.

Treshhold 1000 There is also a device, in the same time theready-made Eis-Mischung cremig Minustem-peraturen on beaten and cooling.

Phrasen-basiertHochste Frequenz There are also a device, in the same time the

ready-made Eis-Mischung cremig beaten andon Minustemperaturen cooling.

Alle Synonyme There is also a unity, in the same time theready-made Eis-Mischung cremig beaten andto frost cooling.

Treshhold 50 There is also a unity, in the same time theready-made Eis-Mischung cremig beaten andto frost cooling.

Treshhold 1000 There are also a device, in the same time theready-made Eis-Mischung cremig beaten andto Minustemperaturen cooling.

Tabelle 10: Weitere Ubersetzungsbeispiele der modifizierten Systeme:hierarchisches System versus Phrasen-basiertes System

45

Im Unterschied zu den hierarchischen Systemen”ubergeneriert“ das Phrasen-

basierte System, wenn viele Synonyme integriert werden, und verschlechtert

die Ubersetzung deutlich, da “device” das gesuchte Referenzwort ist und in

allen hierarchischen Systemen korrekt ubersetzt worden ist.

Das syntaktische System hat die niedrigsten Werte erzielt. Die Ubersetzungen

der Beispielsatze sind allerdings qualitativ am hochwertigsten:



Original After the New Year is this deregulation the majo-rity of renting in the Czech Republic before, theirtenants so far no market-oriented rent pay.

Hochste Frequenz After the New Year is this deregulation the mostrenting in the Czech Republic before, their tenantsso far no market-oriented rent pay.

Alle Synonyme After the New Year is this deregulation the mostrenting in the Czech Republic before, their tenantsso far no market-oriented rent pay.

Treshhold 50 After the New Year is this deregulation of the mostrenting in the Czech Republic, before, whose ten-ants so far no market-oriented rent pay.

Treshhold 1000 After the New Year is this deregulation the mostrenting in the Czech Republic before, their tenantsso far no market-oriented rent pay.

Tabelle 11: Ubersetzungsbeispiele der modifizierten Systeme (syntaktischesSystem)

Durch die Generierungsgrammatik bleibt der Satzbau auch bei Verwendung

der Synonyme intakt. Wie beim hierarchischen System findet bei sehr vielen

Synonymen keine Ubergenerierung statt.

46

Modifikationen UbersetzungsbeispieleReferenz There is also a device that beats the finished

ice cream mixture to a creamy consistencywhile cooling it to negative temperatures.

Original It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andon Minustemperaturen cooling will.

Hochste Frequenz It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andon Minustemperaturen cooling will.

Alle Synonyme It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andto frost cooling will.

Treshhold 50 It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andto frost cooling will.

Treshhold 1000 It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andon Minustemperaturen cooling will.

Tabelle 12: Weitere Ubersetzungsbeispiele der modifizierten Systeme(syntaktisches System)

47

5 Probleme

5.1 Linguistischer Hintergrund

Auf linguistischer Ebene gab es mehrere Probleme. Da keine Qualitatsstei-

gerung der Ubersetzungssysteme erfolgte, der Grund aber nicht in der ei-

gentlichen Integration der Synonyme lag, sondern in der Auswahl dieser, ist

anzunehmen, dass eine Methode gefunden werden kann, die Erfolg verspricht.

5.1.1 Phrasen versus Worter

Ein Problem, das im Laufe dieser Arbeit auftrat, war die Entscheidung, ob es

Sinn macht, Synonyme nur auf Wortbasis zu integrieren oder ganze Phrasen

miteinzubeziehen. Phrasen werden in MOSES bevorzugt behandelt, da das

gemeinsame Auftreten von Wortern die Richtigkeit der Ubersetzung erhoht.

Ersetzt man Worter in Phrasen mit Synonymen, so konnen verheerende Feh-

ler auftreten, die die ganze Satzsemantik zerstoren.

1 - Wort Ersetzung:

Beispiel: mathematische Ebene

Ubersetzung: mathematical level

Synonymisierung: mathematische Flache

Ubersetzung (korrekt): mathematical surface

Ubersetzung (real): mathematical level

2 - Wort Ersetzung:

Beispiel: weiche Decke

Ubersetzung: soft blanket

Synonymisierung: friedliche Zimmerdecke

Ubersetzung (korrekt): peaceful ceiling

Ubersetzung (real): soft blanket

48

Auf Grund dieser Fehler scheint es sinnvoll, Synonyme nur auf Wortbasis zu

ersetzen.

Eine Moglichkeit, feststehende, meist umgangssprachliche Phrasen zu inte-

grieren ware denkbar, doch ist sie wegen des sehr geringen Vorkommens in

geschriebenen Texten zu vernachlassigen. Außerdem sollten umgangssprach-

liche Phrasen ebenfalls umgangssprachlich ubersetzt werden, da die absicht-

liche Paraphrasierung eines Wortes meist gewollt ist und die Satzsemantik

beeinflussen soll. So soll”vom Fleisch gefallen“ nicht einfach mit

”abgema-

gert“ (eng: “emaciated”) ubersetzt werden, sondern mit der verstarkten

Bedeutung “to have lost a lot of weight”.

5.1.2 Umgangs- und fachsprachliche Ausdrucke

Ein weiteres Problem waren umgangs- und fachsprachliche Ausdrucke. Auf

Grund der niedrigen Corpusfrequenzen und der so gut wie immer vorkom-

menden Synonyme werden diese Ausdrucke nicht spezifisch genug ubersetzt,

sondern mit einem viel allgemeineren Synonym. Fachausdrucke werden ubli-

cherweise ubernommen, da keine Ubersetzung notwendig ist. Wahrend ein

Mensch ein Synonym oft besser versteht, so wird es in der Analyse durch die

Bewertungsalgorithmen in der maschinellen Sprachverarbeitung als falsch er-

kannt. Es ist vollig zulassig”Alopezie“ mit “hair loss” statt mit “alopecia”

zu ubersetzen, jedoch wird dies unter Umstanden als Fehler bei der automa-

tischen Auswertung der Daten gewertet.

5.2 Technischer Hintergrund

Die technische Herausforderung lag vor allem darin, die zu modifizierenden

Systeme nicht zu stark zu verlangsamen und verschiedene Datenquellen und

-formate so zu verarbeiten, dass eine sinnvolle Integration in die verschie-

denen Systeme moglich ist. Gute Ubersetzungssysteme bestehen aus sehr

großen Daten. Das Einfugen der Synonyme lauft mit linearer Geschwindig-

keit und dauert in etwa 2,5% der Zeit, die das Training beansprucht. Das

darauffolgende Tuning ist nicht signifikant langsamer.

Durch das benutzte Europarl-v7-Corpus wurden Phrasen- und Regeltabellen

49

in der Großenordnung von 2.1GB bis 15.3GB generiert.

Tabellen-Dateien GroßePhrasen-basiert

Original 91999679 lines 11.12GBHochste Frequenz 96890211 lines 11.97GB

Alle Synonyme 99085127 lines 12.19GBTreshhold 50 98365352 lines 12.12GB

Treshhold 1000 96920175 lines 11.98GBhierarchisch



Treshhold 1000 138452722 lines 18.58GBSyntax-basiert



Treshhold 1000 19782611 lines 2.45GB

Tabelle 13: Tabellengroßen

5.2.1 Bewertungsalgorithmen

Jeder Bewertungsalgorithmus beruht darauf, eine Ubersetzung mit einer Re-

ferenz zu vergleichen. Da in dieser Arbeit nur eine Referenz vorhanden war

(Testset: News2011), bedeutet jede abweichende Ubersetzung eines Satzes

zwingend einen Fehler. Nach Durchsicht der ubersetzten Texte sind einige

Ubersetzungen der modifizierten Systeme durchaus denkbar, manchmal sieht

der ganze Satzbau besser aus als der der unveranderten Ubersetzung, jedoch

konnen diese vom Menschen uberpruften Unterschiede und Urteile nicht in

den Bewertungsalgorithmen berucksichtigt werden.

50

5.2.2 Erhohung der Varianz

In MOSES (und jedem anderen statistischem Ubersetzungssystem) bedeutet

eine große Phrasen- oder Regeltabelle nicht zwingend eine hohere Qualitat.

Die Inhalte der Phrasen- und Regeltabellen wurden bei den 3 bearbeiteten

Systemen im Schnitt zwischen 5% und 15% großer. Anhand der OOV-Raten

und der BLEU- und TER-Werte ist aber zu sehen, dass dies weder mit den

fehlenden Wortern, noch mit einem Qualitatszuwachs korreliert. Das zu star-

ke Eingreifen in die Phrasen- und Regeltabellen macht den Vorteil der hoher-

en Abdeckung somit zunichte. Ohne vorige Einsicht in den zu ubersetzenden

Text ist es schwierig, ein geeignetes”Synonymfenster“zu finden.

5.2.3 Tuning

Das Tuning stellt einen weiteren Storfaktor dar. Es ist nicht garantiert, auch

nach mehrmaligem Tuning die besten Gewichtungen gefunden zu haben. Ge-

rade bei sehr großen Phrasen- oder Regeltabellen ist es oft schwierig, die

besten Gewichte zu finden. Durch das Einfugen von Synonymen wird dieser

Prozess deutlich erschwert und es konnte haufig mit den getuneten Gewich-

tungen des Originalsystems bessere Ergebnisse erzielt werden als mit den”be-

sten“ Gewichtungen der modifizierten Systeme. Dies lasst darauf schließen,

dass die Uberfullung der Tabellen dazu fuhrt, dass der Tuningalgorithmus

nicht mehr optimal arbeiten kann.

51

6 Fazit

6.1 Zusammenfassung

Abbildung 11: BLEU-Scores

Die Integration von Synonymen in maschinelle Ubersetzungssysteme funk-

tionierte bei allen getesteten Systemen, brachte jedoch keine Verbesserun-

gen, sondern verschlechterte das entsprechende System. Das Vokabular jedes

Systems wurde erfolgreich erweitert, was zwar half, unbekannte Worter zu

erkennen, jedoch auch dazu fuhrte, dass manche Worter mit zu vielen Uber-

setzungsmoglichkeiten ausgestattet wurden. Dies erhohte die Varianz in eini-

gen Falle so stark, dass zuvor”erlernte“ Ubersetzungen nicht mehr an erster

52

Stelle standen und Worter, die im Originalsystem korrekt ubersetzt wurden,

”falsch“ ubersetzt wurden. In vielen Fallen war die Ubersetzung zwar noch

semantisch korrekt, entsprach aber nicht mehr der wortlichen Ubersetzung.

In einigen Fallen, vor allem bei der Integration von allen Synonymen, entstan-

den auch semantisch ungleiche Ubersetzungen. Die Einfuhrung eines sechsten

Gewichts und die Verankerung dieses Gewichts mit den Originalwortern, Syn-

onymen und Phrasen beeinflussten die Qualitat weder negativ noch positiv.

Am vielversprechendsten scheint die Integration in syntaktische Systeme.

Zwar haben das hierarchische und Phrasen-basierte System weniger Qua-

litatsverlust als das syntaktische System erlitten, die Qualitatsprufung zeigte

aber, dass durch die starke Regelbegrenzung der Satzbau beibehalten wird

und ein Synonymaustausch auf Wortbasis zu sinnvollen Ergebnissen fuhrt.

6.2 Ausblick und Weiterentwicklung

Die Idee hinter der Integration von Synonymen hat zumindest dahingehend

funktioniert, das Vokabular nachhaltig erhohen zu konnen. Es stellt sich le-

diglich die Frage, ob es Sinn macht, Synonyme auf großer Basis zu integrieren

oder eventuell kontextueller vorzugehen. Die benutzten Synonymauswahlme-

thoden haben gezeigt, dass eine breitflachige Auswahl zu viele Storungen des

Originalsystems verursacht, was darauf schließen lasst, dass eine weniger dra-

stische Methode erfolgversprechender ist.

Durch diese Erkenntnis wurde ein weiteres Konzept verfolgt und getestet:

‘‘On-demand” Synonymloading

Hierbei wird die komplette Synonymquelle als zweite Datenbank gesehen,

die vor dem Ubersetzen als Hilfe herbeigezogen wird, wenn Worter nicht

ubersetzt werden konnen. Die vom Training generierten Worter und Phra-

sen werden somit deutlich weniger beeinflusst, die Vorteile der Vergroßerung

des Vokabulars sind dennoch vorhanden.

53

Phrasen/Regeltabelle BLEU TERTextOOV

VocabOOV

Phrasen-basiertes SystemOriginal 18.67 0.6414 0.2170 0.0117





On-demand 18.65 0.6373 0.2150 0.0114hierarchisches System

Original 18.19 0.6473 0.2163 0.0116





On-demand 18.45 0.6437 0.2143 0.0113syntaktisches System

Original 16.38 0.6634 0.2168 0.0116





On-demand 16.39 0.6640 0.2149 0.0113

Tabelle 14: Ergebnisse fur on-demand loading

Systeme On-demand

Phrasen-basiert 0.23Hierarchisch 0.007

Syntax-basiert 0.071

Tabelle 15: Statistische Signifikanz (Werte <= 0.05 bedeuten Signifikanz)On-demand versus Originalsysteme

54

Abbildung 12: BLEU-Scores (mit on-demand)

Die “on-demand” Modifikation konnte uberzeugen und lieferte bessere Er-

gebnisse als das unveranderte Originalsystem. Es konnten mit Hilfe der Syn-

onyme unbekannte Worte teilweise korrekt ubersetzt werden. Naturlich ent-

standen auch hier Fehler, jedoch deutlich weniger.

Allerdings muss diese Modifikation vor jedem Ubersetzen durchgefuhrt wer-

den und das entstandene modifizierte System ist somit nicht allgemein ein-

setzbar. Das Tuningergebnis des Systems mit sechs Werten ohne weitere

Anderungen kann ubernommen werden, da die Synonymanzahl der hinzu-

gefugten Synonyme viel geringer ist als wenn mit breitflachigem Einfugen

gearbeitet wird.

“On-demand” fallt daher eher unter ein zweites, kontextuelles Tuning und

55

Modifikationen UbersetzungsbeispieleOriginal The same applies called he Schamane from

the neighbouring Guinea to aid, which ac-companied by police, soldiers and the Leib-garde of Presidents indiscriminately ...

On-demand The same applies called he Schamane fromthe neighbouring Guinea to aid, which ac-companied by police, soldiers and the presi-dential guards of Presidents indiscrimina-tely ...

Original In a Wochenendhaus ...On-demand In a summer cottage ...

SynonymfehlerOriginal This is the Casa Batllo of the Catalonian ar-

chitect, Antonio Gaudi in Barcelona.On-demand This is the Casa Batllo of the Catalonian ar-

chitect, Antonio pleasure in Barcelona.

Tabelle 16: Ubersetzungsbeispiele des modifizierten Systems (On-demand)

nicht unter ein weiteres Training des Systems.

Fur den Erfolg der Integration der Synonyme in die maschinelle Ubersetzung

ist es sinnvoller an einer großeren Synonymquelle zu arbeiten als zu versuchen

eine geeignete Methode zu finden diese”blind“ zu integrieren.

56

7 Danksagung

An dieser Stelle mochte ich mich bei jedem bedanken, der mich bei jeglichen

Problemen unterstutzt hat und dessen fachliche Meinung zum Gelingen die-

ser Diplomarbeit beigetragen hat.

Besonderes danken mochte ich Andreas Maletti fur die hervorragende Be-

treuung dieser Arbeit und die Hilfe bei jeglichen Fragen, Daniel Quernheim,

Nina Seemann und dem gesamten MOSES Support Team fur Ihre Hilfe und

Unterstuzung bei Problemen mit MOSES, Benjamin David fur seine Pro-

grammierratschlage und Helmut Schmid fur die Tipps im Umgang mit bitpar

und SMOR.

Außerdem danke ich meiner Familie und Sandra Marci fur die dauerhafte

Unterstutzung und das Probelesen.

57

8 Anhang

Pythonskripte (auf CD inklusive Readmes):

- fur die Bearbeitung der Phrasen- und Regeltabellen

- Normalisierung der Texte, XML-Wrapper, OOV-Rates

- manuelle Thesaurusabfrage

58

Literaturverzeichnis

[1] Annual Meeting of the Association for Computational Lin-

guistics (ACL): Newstest 2008/2011. http://www.statmt.org/

wmt12/dev.tgz. Version: 2012. – abgerufen am 21.11.2013

[2] Annual Meeting of the Association for Computational Lin-

guistics (ACL): Workshop for Machine Translation 2013. http:

//www.statmt.org/wmt13/. Version: 2013. – abgerufen am 14.11.2013

[3] Bar, Kfir ; Dershowitz, Nachum: Using synonyms for Arabic-to-

English example-based translation. In: Association for Machine Trans-

lation in the Americas (AMTA), 2010

[4] Baroni, Marco ; Kilgarriff, Adam: Large linguistically-processed

Web corpora for multiple languages. In: Annual Meeting of the Asso-

ciation for Computational Linguistics (ACL), 2006

[5] Blessing, Andre: Extrahiertes, deutsches Wikipedia (Version:

10.04.2011). http://www.ukp.tu-darmstadt.de/software/jwpl. –

abgerufen am 26.01.2014

[6] Blume, Moritz: Expectation Maximization: A Gentle Introduction.

Technische Universitat Munchen, 2008. http://campar.in.tum.de/

twiki/pub/Main/MoritzBlume/EMGaussianMix.pdf

[7] Chiang, David: Hierarchical Phrase-Based Translation. In: Com-

putational Linguistics 33 (2007), Nr. 2. http://www.aclweb.org/

anthology-new/J/J07/J07-2003.pdf

[8] Faaß, Gertrud ; Eckart, Kerstin: A Corpus of Parsable Sentences

from the Web. In: International Conference of the German Society for

Computational Linguistics and Language Technology (GSCL), 2013

[9] Federico, M. ; Bertoldi, N. ; Cettolo, M.: IRSTLM: an Open

Source Toolkit for Handling Large Scale Language Models. In: Procee-

dings of Interspeech, 2008

59

[10] Federico, Marcello: IRST LM. http://sourceforge.net/projects/

irstlm/. – abgerufen am 03.10.2013

[11] Kneser, Reinhard ; Ney, Hermann: Improved backing-off for m-gram

language modeling. In: Acoustics, Speech, and Signal Processing (ICAS-

SP), 1995

[12] Koehn, Philipp: Statistical Machine Translation. Cambridge University

Press, 2010

[13] In: Koehn, Philipp: Statistical Machine Translation: Kapitel 11 Tree-

Based Models. Cambridge University Press, 2010

[14] In: Koehn, Philipp: Statistical Machine Translation: Kapitel 4 Word-


[15] In: Koehn, Philipp: Statistical Machine Translation: Kapitel 5 Phrase-


[16] Koehn, Philipp ; Axelrod, Amittai ; Mayne, Alexandra B. ;

Callison-Burch, Chris ; Osborne, Miles ; Talbot, David: Edinbur-

gh System Description for the 2005 IWSLT Speech Translation Evaluati-

on / International Workshop on Spoken Language Translation (IWSLT).

2005. – Forschungsbericht

[17] Koehn, Philipp ; Hoang, Hieu ; Birch, Alexandra ; Callison-

Burch, Chris ; Federico, Marcello ; Bertoldi, Nicola ; Cowan,

Brooke ; Shen, Wade ; Moran, Christine ; Zens, Richard ; Dyer,

Chris ; Bojar, Ondrej ; Constantin, Alexandra ; Herbst, Evan: Mo-

ses: Open Source Toolkit for Statistical Machine Translation. In: Annual

Meeting of the Association for Computational Linguistics (ACL), 2007

[18] Koehn, Phillip: Europarl: A Parallel Corpus for Statistical Machine

Translation. In: Machine Translation Summit X, 2005

[19] Koehn, Phillipp: Statistical Significance Tests for Machine Translation

Evaluation. In: Annual Meeting of the Association for Computational

Linguistics (ACL), 2004

60

[20] Naber, Daniel: OpenThesaurus. http://www.openthesaurus.de/

about/download. – abgerufen am 18.02.2014

[21] Naber, Daniel: OpenThesaurus: Building a Thesaurus with a

Web Community, 2004. http://www.openthesaurus.de/download/

openthesaurus.pdf

[22] Naber, Daniel: OpenThesaurus. Ein offenes deutsches Wortnetz. In:

Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen:

Beitrage zur GLDV-Tagung, Peter-Lang-Verlag, 2005, S. 422-433

[23] Nanba, Hidetsugu ; Takezawa, Toshiyuki ; Uchiyama, Kiyoko ; Ai-

zawa, Akiko: Automatic Translation of Scholarly Terms into Patent

Terms Using Synonym Extraction Techniques. In: The International

Conference on Language Resources and Evaluation (LREC), 2012

[24] Och, Franz J.: Minimum Error Rate Training in Statistical Machine

Translation. In: Annual Meeting of the Association for Computational

Linguistics (ACL), 2003

[25] Och, Franz J. ; Ney, Hermann: A Systematic Comparison of Various

Statistical Alignment Models. In: Computational Linguistics 29 (2003),

Nr. 1, S. 19–51

[26] Och, Franz J. ; Ney, Hermann: The Alignment Template Approach

to Statistical Machine Translation. In: Computational Linguistics 30

(2004), Nr. 4, S. 417–449

[27] Papineni, Kishore ; Roukos, Salim ; Ward, Todd ; Zhu, Wei-Jing:

Bleu: a Method for Automatic Evaluation of Machine Translation.

In: Annual Meeting of the Association for Computational Linguistics

(ACL), 2002

[28] Petrov, Slav ; Barrett, Leon ; Thibaux, Romain ; Klein, Dan:

Learning Accurate, Compact, and Interpretable Tree Annotation. In:

COLING-ACL, 2006

61

[29] Petrov, Slav ; Klein, Dan: Improved Inference for Unlexicalized Par-

sing. In: HLT-NAACL, 2007

[30] Project Syndicate: News Commentary by Project Syndicate. http:

//www.statmt.org/wmt13/training-parallel-nc-v8.tgz. – abgeru-

fen am 16.11.2013

[31] Rosen, Victoria ; Meurer, Paul ; Smed, Koenraad de: Constructing

a parsed corpus with a large LFG grammar. In: Proceedings of LFG’05,

CSLI Publications, 2005

[32] Schmid, Helmut ; Fitschen, Arne ; Heid, Ulrich: SMOR: A German

Computational Morphology Covering Derivation, Composition and In-

flection. In: The International Conference on Language Resources and

Evaluation (LREC), 2004

[33] Schutze, Hinrich ; Manning, Christopher D.: Foundations of statisti-

cal natural language processing. MIT Press. Cambridge, 1999

[34] Snover, Matthew ; Madnani, Nitin ; Dorr, Bonnie ; Schwartz,

Richard: Fluency, Adequacy, or HTER? Exploring Different Human

Judgments with a Tunable MT Metric. In: Workshop on Statistical

Machine Translation (WMT), 2009

[35] Stolcke, Andreas ; Zheng, Jing ; Wang, Wen ; Abrash, Victor:

SRILM at Sixteen: Update and Outlook. In: Microsoft Speech Labs,

2011

[36] The Berkeley Natural Language Processing Group: Berkeley

Parser. https://code.google.com/p/berkeleyparser/. – abgerufen

am 04.03.2014

62

Documents

Integration von Synonymen in statistische maschinelle ... · PDF fileIdee und das Ziel dieser Diplomarbeit ist es, mit Hilfe von Synonymen, die ... Als Beispielsprachen werden Deutsch