Upload
lyduong
View
223
Download
3
Embed Size (px)
Citation preview
Integration von Synonymen in statistische
maschinelle Ubersetzungssysteme
Cornelius Putzler
27. Mai 2014
Version 1.3 - aktualisiert am 27.05.2014
Prufer : Prof. Dr. Jonas Kuhn und Dr. rer. nat. Andreas Maletti
Betreuer : Dr. rer. nat. Andreas Maletti
Universitat : Universitat Stuttgart
Institut : Institut fur Maschinelle Sprachverarbeitung
Lehrstuhl : Grundlagen der Computerlinguistik
Bearbeitung : Cornelius Putzler (Matrikelnummer: 2373926)
Eigenstandigkeitserklarung
Hiermit versichere ich, dass ich die vorliegende Diplomarbeit selbstandig ver-
fasst habe. Ich versichere, dass ich keine anderen als die angegebenen Quellen
benutzt und alle wortlich oder sinngemaß aus anderen Werken ubernomme-
nen Aussagen als solche gekennzeichnet habe.
Inhaltsverzeichnis
1 Einleitung 1
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Ubersetzungssysteme, Daten und Evaluation . . . . . . . . . . 2
1.3.1 MOSES . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2.1 Test-, Trainings- und Ubersetzungssets . . . . 4
1.3.3 Evaluationsalgorithmen . . . . . . . . . . . . . . . . . . 6
1.3.4 Statistische Signifikanz . . . . . . . . . . . . . . . . . . 7
1.3.5 Out Of Vocablulary - Rates (OOV-Rates) . . . . . . . 8
1.3.6 Thesaurus . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.6.1 Thesauruseintrage + Corpusfrequenz . . . . . 9
2 Systeme - Uberblick 10
2.1 Wort-basiertes System . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Phrasen-basiertes System . . . . . . . . . . . . . . . . . . . . . 14
2.3 Baum-basiertes System . . . . . . . . . . . . . . . . . . . . . . 16
3 Implementierungen in MOSES 18
3.1 Aufbau eines Ubersetzungssystems in MOSES . . . . . . . . . 18
3.2 Phrasen-basiertes System in MOSES . . . . . . . . . . . . . . 20
3.3 Hierarchisches System in MOSES . . . . . . . . . . . . . . . . 23
3.4 Syntaktisches System in MOSES . . . . . . . . . . . . . . . . 25
3.5 Technischer Uberblick uber die generierten MOSES Systeme
und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.6 Einspeisung der Thesaurusdaten in MOSES . . . . . . . . . . 28
3.7 Morphologische Erweiterung fur alle Systeme . . . . . . . . . . 33
4 Evaluation 35
4.1 Quantitative Analyse . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Phrasen-basiertes System . . . . . . . . . . . . . . . . . . . . . 37
4.3 Hierarchisches System . . . . . . . . . . . . . . . . . . . . . . 38
4.4 Syntaktisches System . . . . . . . . . . . . . . . . . . . . . . . 39
4.5 Qualitative Analyse . . . . . . . . . . . . . . . . . . . . . . . . 40
5 Probleme 48
5.1 Linguistischer Hintergrund . . . . . . . . . . . . . . . . . . . . 48
5.1.1 Phrasen versus Worter . . . . . . . . . . . . . . . . . . 48
5.1.2 Umgangs- und fachsprachliche Ausdrucke . . . . . . . . 49
5.2 Technischer Hintergrund . . . . . . . . . . . . . . . . . . . . . 49
5.2.1 Bewertungsalgorithmen . . . . . . . . . . . . . . . . . . 50
5.2.2 Erhohung der Varianz . . . . . . . . . . . . . . . . . . 51
5.2.3 Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Fazit 52
6.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.2 Ausblick und Weiterentwicklung . . . . . . . . . . . . . . . . . 53
7 Danksagung 57
8 Anhang 58
Literaturverzeichnis 59
1 Einleitung
1.1 Motivation
Maschinelle Ubersetzungssysteme existieren bereits seit mehreren Jahren und
sind stetig in vielerlei Richtungen verbessert worden. Die Grundidee der ma-
schinellen Ubersetzung ist: Die Quellsprache wird anhand bilingualer Cor-
pora in die Zielsprache ubersetzt. Kommt ein Wort oder eine Phrase der
Quellsprache in dem benutzten Corpus vor, so wird das Wort oder die Phra-
se direkt ubersetzt, andernfalls wird die Phrase so gut es geht konstruiert
und auf diese Art und Weise ubersetzt. Da es zum Beispiel im Deutschen
kein Limit an moglichen Phrasen gibt (Adjektive konnen beliebig lang hin-
tereinander gehangt werden, Nebensatze unendlich lang fortgefuhrt werden),
gibt es auch keine bilingualen Corpora, die jede Phrase beinhalten. Aufgrund
dessen ist die maschinelle Ubersetzung noch weit davon entfernt, perfekt zu
sein. Um die Qualitat zu steigern, wurden unter anderem diverse Techniken
getestet, Synonyme in die maschinelle Ubersetzung miteinzubeziehen und das
mit Erfolg [3]. Dies passierte jedoch nach der eigentlichen Ubersetzung. Die
Idee und das Ziel dieser Diplomarbeit ist es, mit Hilfe von Synonymen, die
vor der Ubersetzung gesucht und eingesetzt werden, die Ubersetzungsqua-
litat zu steigern. Durch das Einfugen von Synonymen vor der Ubersetzung
wird die Abdeckung an zu ubersetzenden Worten erhoht, was theoretisch
zu einer Qualitatsverbesserung fuhren sollte, da eine hohere Abdeckung lo-
gischerweise eine hohere Qualitat aufweisen sollte. Fuhrt man die Synony-
me nach der Ubersetzung ein, so steigert dies die Varianz - allerdings kann
dies, wenn der Hintergrund des ubersetzten Textes richtig erkannt wird, pas-
sendere Ubersetzungen liefern. Beispielsweise will man in einem Text, der
technische Fachbegriffe beinhaltet, diese auch korrekt fachsprachlich uber-
setzen [23]. Als Beispielsprachen werden Deutsch und Englisch verwendet,
wobei der eigentliche Programmieransatz modular gestaltet ist, so dass die
Sprachen beliebig austauschbar sind.
1
1.2 Aufbau der Arbeit
Zunachst soll ein Uberblick uber die benutzten Daten und Programme ge-
schaffen werden so wie deren Aufbau, Inhalt, Benutzung und Ziel.
Im zweiten Kapitel wird der linguistische Hintergrund und der grobe Aufbau
der Ubersetzungssystemvarianten beschrieben.
Das dritte Kapitel handelt von den Implementationen der Ubersetzungssy-
steme in die maschinelle Sprachverarbeitung und deren Aufbau in dem fur
diese Arbeit benutzten Programm. Ebenfalls wird erlautert, auf welche Art
und Weise die Integration von Synonymen in die Systeme stattfindet.
Das vierte Kapitel dient der Evaluation auf quantitativer und qualitativer
Ebene. Es werden sowohl alle maschinellen Bewertungen dargelegt als auch
der Inhalt der Ubersetzungen uberpruft und diskutiert.
Das funfte Kapitel beschriebt die Probleme, die sowohl in dieser Arbeit auf-
traten als auch allgemeine Probleme der maschinellen Ubersetzung.
Im Fazit werden kurz die Ergebnisse zusammengefasst und ein Ausblick ge-
geben, ob die getesteten Methoden sinnvoll sind. Ferner wird ein weiterer
Ansatz vorgestellt.
1.3 Ubersetzungssysteme, Daten und Evaluation
Als Ubersetzungssystem wird MOSES [17] benutzt. MOSES ist ein quellof-
fenes Ubersetzungssystem, das mit Hilfe von trainierten Ubersetzungsmo-
dellen automatisch Texte ubersetzen kann. MOSES beinhaltet alle aktuel-
len statistischen Ubersetzungsmethoden. Dazu zahlen das phrasen-basierte,
hierarchisch-basierte und syntax-basierte Ubersetzen.
Das Hauptcorpus, das sowohl zur Evaluation als auch der Extraktion meh-
rerer Datensatze dient, ist Europarl [18]. Andere, kleinere Corpora wie Sde-
WaC [8] und Wikipedia [5] (s. Abschnitt 1.3.2) werden im Verlauf der Arbeit
ebenfalls benutzt.
Die fur diese Arbeit essentiellen, deutschen Synonyme werden aus dem Open-
Source-Thesaurus OpenThesaurus [20] extrahiert.
Abschließend werden die erstellten Systeme via BLEU [27] und TER [34] eva-
luiert und ausfuhrlich untereinander und mit den unveranderten Systemen
2
verglichen.
1.3.1 MOSES
MOSES ist aktuell im Bereich der statistischen maschinellen Ubersetzung
die wichtigste Ressource. Die außerordentlich guten und rechenzeitoptimier-
ten Implementierungen aller zur Zeit genutzten Ubersezungsmodelle bieten
eine ideale Plattform dafur, theoretische Ansatze praktisch durchzufuhren.
Ubersetzungssysteme wie “google Translate” und “bing Translate” bauen
ebenfalls auf MOSES auf. Aufgrund des modularen Aufbaus (“Alignment”,
“Training”, “Tuning”, “Translate” et cetera) sowie der freien Verfugbarkeit
und Benutzung von MOSES eignet sich das vorhandene “Framework” be-
stens fur die Umsetzung der Ideen dieser Arbeit. MOSES besteht aus meh-
reren Teilen. So werden neben MOSES, das fur die Ubersetzung zustandig
ist, auch noch GIZA [25], SRILM [35] und IRSTLM [10] [9] benotigt.
GIZA ist fur das “alignment” (siehe Kapitel 2), das Verknupfen von Wortern,
zustandig.
SRILM und IRSTLM werden benotigt, um das “language model”(siehe 3.1)
des Systems zu erstellen. Das “language model” ist dafur zustandig, dass
Texte in der Zielsprache sinnvoll generiert werden konnen. In dieser Arbeit
wurden folgende Versionen der Programme benutzt:
MOSES Version 1.0 (abgerufen am 03.10.2013)
boost 1.55.0 (abgerufen am 03.10.2013
IRSTLM 5.80.03 (abgerufen am 03.10.2013)
SRILM 1.7.0 (abgerufen am 03.10.2013)
GIZA++ 1.0.7 (abgerufen am 03.10.2013)
1.3.2 Corpora
Europarl ist ein Parallelcorpus, das aus den Verhandlungen des Europaischen
Parlaments entstanden ist. Die verschiedenen Sprachen stimmen in ihren
Satzen uberein, das heißt, dass es fur jeden Satz in einem der Corpora ei-
ne Ubersetzung gibt, die ebenfalls ein Satz ist. Europarl beinhaltet 21 eu-
3
ropaische Sprachen [18].
Dieses Corpus wurde spezifisch fur die maschinelle Ubersetzung entwickelt
und ist heute ein sowohl sehr großes (ungefahr 60 Millionen Worter pro Spra-
che) als auch das wichtigste und am haufigsten verwendete Corpus der ma-
schinellen Ubersetzung europaischer Sprachen.
DeWaC [4] ist ein deutsches Corpus, das einerseits Worter aus deutschen
Domains (.de) als auch Worter mit mittlerer Vorkommensfrequenz in der
Suddeutschen Zeitung beinhaltet. Außerdem sind die Worter mit ihren Wort-
arten (Part-of-Speech-Tags: POS-Tags) versehen.
SDeWaC [8] (Stuttgart DeWaC) ist ein mittelgroßes Corpus, das eine Ab-
wandlung von DeWaC ist. Es wurden doppelte und falsche Eintrage entfernt
und einige kleinere Fehler behoben.
Wikipedia ist ebenfalls ein deutsches Corpus, das aus der gleichnamigen,
deutschen Web-Enzyklopadie von Herrn Andre Blessing mit Hilfe der Java
Wikipedia Library 2 [5] am 10. April 2011 extrahiert wurde. Auch in diesem
Corpus sind die Worter mit POS-Tags versehen.
(S)DeWaC und Wikipedia sind monolinguale Corpora. Sie werden deshalb
in dieser Arbeit nur fur Frequenzanalysen und POS-Tag Filter verwendet.
Eine Corpusfrequenz ist die Anzahl der Vorkommen eines Wortes innerhalb
eines Corpus. Die Idee hinter der Frequenz ist es, die Worter nochmals einer
Qualitatskontrolle zu unterziehen. So werden hoher frequentierte Worte bes-
ser eingestuft als niedrig frequentierte Worte. Außerdem ist es so moglich,
manche (unpassende) Synonyme herauszufiltern, was ohne Frequenz auf ei-
nem nicht selbst zusammengestellten Datensatz nicht moglich ist, da kein
semantischer Bezug besteht.
1.3.2.1 Test-, Trainings- und Ubersetzungssets
Um ein automatisches Ubersetzungssystem zu trainieren und zu verbessern,
werden sogenannte Testsets benotigt. Ein Testset ist ublicherweise ein sehr
kleines Parallelcorpus, das auf Satzebene ausgerichtet ist. In dieser Arbeit
wird fur das Training das offizielle Testset des “Workshop in Machine Transla-
tion 2013” [2] “news-commentary-v8” benutzt. Es beinhaltet ungefahr 130000
4
Satze und handelt inhaltlich von Kommentaren [30] zu Nachrichten. Um das
Ubersetzungssystem spater zu verbessern beziehungsweise dessen Genauig-
keit zu erhohen, wird ebenfalls ein Testset benotigt, das sich jedoch vom
Trainingsset unterscheiden muss. Hierzu wird das kleinere Testset “New-
stest2008” [1] benutzt, das von Nachrichtensatzen handelt1. Ein solches Set
wird Tuningset genannt. Letztendlich wird noch ein tatsachliches Uberset-
zungsset benotigt. Auch hier handelt es sich um ein Paralleldatenset. Die
Ubersetzungszielseite wird als Referenzubersetzung fur die Evaluation fest-
gelegt. Ublicherweise wird fur die Ubersetzung ein Text genommen, der in-
haltlich nah bei dem Tuningset liegt, jedoch keinesfalls der gleiche ist, da die
Domane, in der ubersetzt wird, in einigen Fallen sehr spezifisch sein kann
und so das Tuning zwangslaufig auf eine Domane auslegt ist. Ein Beispiel fur
die Wichtigkeit der Domanenzugehorigkeit ware, “Microsoft Word” nicht mit
”Microsoft Wort“ zu ubersetzen, sondern mit
”Microsoft Word“. Als Uber-
setzungsset wird somit “Newstest2011” [1] benutzt.
Alle benutzten Daten werden vor der Verwendung”tokenisiert“ und “trueca-
sed”. Tokenisierung bedeutet, dass ein Satz auf Wortebene in seine Einheiten
(”Tokens“) zerlegt wird. Dieser Prozess erleichtert die Weiterverarbeitung der
Daten immens. So wird zum Beispiel aus:
”(Das Parlament erhebt sich zu einer Schweigeminute.)“
”( Das Parlament erhebt sich zu einer Schweigeminute . )“
“Truecasing” bedeutet, die”echte“ Schreibweise eines Wortes herauszufinden.
Im Englischen und Deutschen werden Worter am Satzanfang groß geschrie-
ben. Dies ist aber nicht ihre richtige Schreibweise. Außerdem werden alle
Satze mit einer Lange von uber 80 Wortern herausgefiltert, da diese nicht
sehr oft im normalen Sprachgebrauch vorkommen, die Rechenleistung extrem
beanspruchen und die Systeme fur zu lange Satze sehr fehleranfallig sind.
1Nahere Details zu diesem Testset sind bei den Ergebnissen des Workshop for MachineTranslation 2012 zu finden: http://www.statmt.org/wmt12/pdf/WMT02.pdf
5
1.3.3 Evaluationsalgorithmen
BLEU [27], TER sind Metriken zur automatischen Evaluation in der maschi-
nellen Ubersetzung. Bei BLEU (Bilingual Evaluation Understudy) [27] wird
die maschinelle Ubersetzung mit einer Ubersetzung durch Menschen bezie-
hungsweise mit der entsprechenden Zielsprachenseite des bilingualen Corpus
verglichen und mit einem Wert versehen, der zwischen 0 und 1 liegt, wobei 1
die maximale Qualitat widerspiegelt. Hierbei werden “n-grams” gesucht, die
mit der Referenzubersetzung ubereinstimmen. “n-grams” sind Reihen von
Wortern. So werden Unigramme (1-gram) fur eine Wort-fur-Wort Uberset-
zung benutzt und Multigramme, um festzustellen wie, fließend (“fluent”) der
Text ist. Zur Berechnung des Wertes wird eine”Straffunktion“ verwendet
(sentence brevity penalty (BP)), die, falls der ubersetzte Satz kurzer als der
Referenzsatz ist, den BLEU-Wert nach unten skaliert. Außerdem wird die
Prazision p errechnet, die dazu dient, die Richtigkeit der “n-grams” zu be-
werten. Die n-Gramm-Prazision pn wird auf Satzebene aus der maximalen
Anzahl auftretender, einzigartiger “n-grams” in den Referenzubersetzungen
geteilt durch die Anzahl aller “n-grams” in der zu uberprufenden Uberset-
zung errechnet.2
Um 1 zu erreichen, muss die maschinelle Ubersetzung mit der Referenzuber-
setzung ubereinstimmen. Ein typischer, sehr guter Wert der maschinellen
Ubersetzung liegt bei der Ubersetzung von Englisch nach Deutsch bei 0.3.
Andere Sprachen, die sich besser ubersetzen lassen, da sie grammatikalisch
ahnlicher sind (wie zum Beispiel Franzosisch nach Englisch), haben ubli-
cherweise hohere Werte. Diese Werte konnen allerdings je nach Domane der
Trainingsdaten des Ubersetzungssystems und des zu ubersetzenden Textes
stark variieren. Liegen die Domanen nah beieinander und sind sehr spezi-
fisch, so werden die Ergebniswerte logischerweise besser, als wenn es sich um
entfernte, sehr allgemeine Domanen handelt.
2Eine gute, weiterfuhrende Erklarung mit Beispielen findet sich auf http://www.cl.uni-heidelberg.de/courses/archiv/ss06/mue/Bleu_Evaluation.pdf
6
BP =
1 wenn c > r
e1−r/c wenn c ≤ r
BLEU = BP ∗ exp(N∑
n=1
1N
log pn)
mit:
BP – sentence brevity penalty
c – Lange des maschinell ubersetzten Satzes
r – Lange des Referenzsatzes
N – hochste N-Gramm Zahl
pn – n-Gramm-Prazision
Bei TER (Translation Edit Rate) geht es um die Anzahl der benotigten Edi-
tierschritte (#e) eines Satzes, um auf die Referenzubersetzung zu gelangen
geteilt durch die durchschnittliche Lange der Referenzubersetzungen (Ø#r).
TER = #eØ#r
1.3.4 Statistische Signifikanz
Die oben genannten Evaluationsalgorithmen liefern Werte, um die Qualitat
eines ubersetzten Textes zu messen. So hat man zwar einen definitiven Wert
fur jeden ubersetzten Text, doch ob der Unterschied zwischen Texten wirklich
aussagekraftig ist oder er nur so minimal und zu vernachlassigen ist, muss
uberpruft werden. Ein Mensch konnte die Unterschiede leicht bewerten, um
zu beurteilen, ob ein Text besser, schlechter oder sehr ahnlich dem anderen
ist. Da die menschliche, manuelle Interpretation der Qualitat solcher Texte
sehr teuer, zeitaufwendig und sehr varianzreich sein kann, greift man in der
statistischen maschinellen Ubersetzung zu einem statistischen Signifikanz-
test [19]. Dieser Test beruht auf “Bootstrapping” des benutzten Evaluations-
algorithmus. “Bootstrapping” bedeutet, dass mehrere Teilmengen des kom-
pletten Textes genommen werden und diese Teilmengen mit dem benutzten
Evaluationsalgorithmus bewertet werden. Dieser Prozess wird in der Regel
7
beziehungsweise in der Implementation, die in in MOSES benutzt wird, 1000-
mal ausgefuhrt. Daraufhin werden die 2,5% besten und 2,5% schlechtesten
Werte der Teilmengen entfernt. Die verbleibenden 95% bilden das Konfi-
denzintervall. Anhand des Konfidenzintervalls werden nun mehrere Uberset-
zungen miteinander verglichen und gezeigt, wieviel Prozent der Werte man
loschen darf, damit das vom Gesamtwert her schlechtere Ubersetzungsmodell
im Konfidenzintervall des besseren Systems liegt.
1.3.5 Out Of Vocablulary - Rates (OOV-Rates)
Um die Wortabdeckung eines Ubersetzungssystems zu messen, werden alle
Worter eines Testsets mit dem”Worterbuch“ des Ubersetzungssystem abge-
glichen. Fehlt ein Wort im”Worterbuch“ des Systems, so wird dies gezahlt.
Um die OOV-Rate zu berechnen, gilt die einfache Formel:
OOV-RateVocab = muv
mit:
m – fehlende einzigartige Worter im Text
uv – einzigartige Worter im Vokabular
Außerdem wird in dieser Arbeit noch zusatzlich die OOV-Rate fur das Test-
set berechnet. Damit wird veranschaulicht, wie spezifisch (hohe OOV-Rate)
oder allgemein (niedrige OOV-Rate) das Testset ist.
OOV-RateText = mut
mit:
m – fehlende einzigartige Worter im Text
ut – einzigartige Worter im Text
Fehlende Eintrage nennt man “unknown words”. Diese werden in MOSES in
den ubersetzten Text ubernommen. Fehlt also eine Ubersetzung fur”Metz-
ger“ (eng: butcher) so steht im ubersetzten Text einfach”Metzger“ statt
“butcher”.
8
1.3.6 Thesaurus
Ein Thesaurus ist ein gleichsprachiges Worterbuch mit Erklarungen und Syn-
onymen zu jedem Eintrag. Fur diese Arbeit wurde der deutsche OpenThesau-
rus [20] [22] [21] benutzt. Es handelt sich hierbei um einen offenen Thesaurus,
sprich die Daten und Informationen sind ahnlich wie bei Wikipedia von je-
dem eintragbar und kontrollierbar. Die Qualitat sowie die Quantitat der Da-
ten sind dementsprechend hoch und deshalb eine solide Basis, um Synonyme
zu extrahieren. Es sind alle deutschen Wortarten abgedeckt. Ebenfalls ist die
gesamte Datenbank in verschiedenen Formaten frei verfugbar. Das Format
des OpenThesaurus fur diese Arbeit sieht folgendermaßen aus:
Abstand; Leerschlag; Leerschritt; Leerzeichen
Lieferumfang; Leistungsumfang; Lieferungsumfang; Zubehor
Jede Zeile ist eine semantische Gruppe an Begriffen, die jedoch nicht zwin-
gend die selbe Wortklasse haben mussen.
1.3.6.1 Thesauruseintrage + Corpusfrequenz
Fur die Durchsetzung der Idee dieser Arbeit ist es erforderlich, dass die Wor-
te des Thesaurus eine Corpusfrequenz besitzen. Deswegen konnen manche
Synonyme, die zwar in OpenThesaurus vorkommen, jedoch nicht in den fur
die Frequenzextraktion benutzten Corpora, nicht berucksichtigt werden und
werden verworfen. In einem spateren Teil (3.6) der Arbeit wird das Verfahren
der Synonymauswahl genauer beschrieben.
9
2 Systeme - Uberblick
Im folgenden Teil werden die benutzten Ubersetzungssysteme nach Philipp
Koehns Buch “Statistical Machine Translation” [12] erlautert und erklart.
2.1 Wort-basiertes System
Ein Wort-basiertes [14] [26] System ubersetzt Eingaben Wort fur Wort. Al-
lerdings werden Satzgrenzen gewahrt. Anhand eines Beispiels lasst sich das
Wort-basierte System gut erklaren. Zuerst werden alle Worter mit all ihren
moglichen Ubersetzungen mitsamt ihren Frequenzen aus dem Corpus extra-
hiert. Daraufhin werden die Ubersetzungswahrscheinlichkeiten (Maximum
Likelihood Estimation) berechnet. In diesem Beispiel sind die ubersetzten
Worter also die, die die am haufigsten gemeinsam in Satzen mit ahnlichen
Wortern stehen. Der nachste Schritt ist die Zuweisung (alignment). An die-
ser Stelle werden die Quellsprachenworter mit den Zielsprachenwortern ver-
knupft. Allerdings gibt es einige Sonderfalle, da Quell- und Zielsprache nicht
Abbildung 1: Minimalbeispiel
immer dieselbe Satzstellung haben. Die folgenden Beispiele sind:”mehrere
Worter fur eins“, Wegfall eines Wortes und Einfugung eines Wortes.
10
Abbildung 2: “One-to-many”
Abbildung 3: “Dropping”
Abbildung 4: “Insert”
Die beste Ubersetzung (und damit auch das beste “alignment”) wird in
der maschinellen Ubersetzung mit Hilfe des “Expectation Maximization” [6]
11
(EM) Algorithmus gefunden. Anfangs werden alle Worter miteinander ver-
knupft.
Abbildung 5: Start
Daraufhin werden die Ubersetzungswahrscheinlichkeiten miteinbezogen, um
so unwahrscheinlichere Ubersetzungen auszuschließen.
Abbildung 6: Ubersetzungswahrscheinlichkeitsabgleich
Dies wird solange wiederholt, bis es keine doppelten Belegungen auf beiden
Sprachseiten gibt (wegen “One-to-many” ist es durchaus erlaubt, dass auf
einer Seite ein Doppeleintrag existiert).
12
Abbildung 7: sich wiederholende Schritte
13
2.2 Phrasen-basiertes System
Ein Phrasen-basiertes [15] [7] System ubersetzt eine Eingabe anhand von
Phrasen. Phrasen sind mehrere aneinandergereihte Worter. Anders als in der
klassischen Linguistik haben diese Phrasen allerdings keinen linguistischen
Wert. In der Linguistik werden Satzbausteine als Phrasen betitelt, sprich
Nominalphrasen (NP), Verbalphrasen (VP) und viele weitere. Jeder korrekte
Satz kann in solche Phrasen unterteilt werden. Diese Phrasen mussen auch
nicht zwingend Wort an Wort stehen. Falls die Unterteilung in linguistische
Phrasen nicht moglich ist, ist der Satz fehlerhaft. Eine Illustration des Satzes:
”Das ist ein korrekter, deutscher Satz.“ ist hier in einer C-Struktur, darge-
stellt mit dem XLE-Web Parser3, zu sehen:
Abbildung 8: Syntax-Baum (XLE-Web Parser) [31]
3XLE-Web Parser: http://iness.uib.no/xle-web/xle-web
14
Dies alles findet keinen Einzug in die phrasen-basierte Ubersetzung. Hier wird
strikt nach aufeinanderfolgenden Worten unterteilt. Anhand des obigen Bei-
spiels ware also”Das ist“ eine Phrase fur das Phrasen-basierte System. Um
die bestmoglichen Phrasen zu finden, sind mehrere Schritte notig. Es wird
auch bei dieser Methode Satz fur Satz gearbeitet, das heißt keine Phrase geht
uber die Satzgrenze hinaus. Zuerst wird nur Wort fur Wort ubersetzt bezie-
hungsweise die bestmogliche Ubersetzung fur jedes Wort gesucht. Danach
werden alle zusammenhangenden Worter als Phrasen gekennzeichnet, falls
sie das Alignment respektieren. Wenn dieser Prozess fur jeden Satz stattge-
funden hat, werden alle extrahierten Phrasen miteinander verglichen, um so
die besten zu ermitteln.
Abbildung 9: Beispiel Phrasenextraktion
Tritt eine Phrase ofter als andere auf, so wird die Phrase als besser beurteilt
und bekommt folglich einen hoheren Wahrscheinlichkeitswert als die ande-
ren. Die Wahrscheinlichkeit wird via relativer Frequenz errechnet.
P (f − f − f |e− e− e) = Frequenz(f−f−f,e−e−e)Frequenz(e−e−e)
f steht in diesem Fall fur “foreign”, e fur “english”. Der Ausdruck besteht aus
mehreren Eintragen, um den Unterschied zu einem Wort-basierten System
aufzuzeigen.
15
2.3 Baum-basiertes System
Ein Baum-basiertes [13] Ubersetzungssystem besteht ublicherweise aus einer
Mischung aus einem Phrasenbasiertem System mit der Zugabe einer Uber-
setzungsgrammatik. Es wird als Baum-basiert bezeichnet, da ein Satz mit
Hilfe dieser Grammatik in Baumnotation aufgeschrieben werden kann (siehe
Abbildung 8). Die Ubersetzungsgrammatik gibt Regeln vor, die beim Uber-
setzen beachtet werden mussen. Meistens geschieht dies durch Zuhilfenahme
einer Variablen. Ein einfaches Beispiel fur eine solche Regel ist:
drank X -> habe X getrunken
Diese Variablen werden”Nicht-Terminale“ genannt. Auf diese Art und Wei-
se wird die Satzstellung beim Ubersetzten optimiert und der Rechenaufwand
durch Reduzierung des alignments verringert. Es gibt mehrere Varianten der
Baum-basierten Systeme. Sie unterscheiden sich in der Art und Tiefe der
Grammatiken. Die fur diese Diplomarbeit wichtigen und auch aktuell meist
benutzten Varianten sind das hierarchische System und das syntaktische Sy-
stem. Ein hierarchisches Ubersetzungssystem ubersetzt Phrasen anhand von
Regeln, deren Variablen keinerlei linguistischen Hintergrund haben. Die ty-
pischen Regeln sind:
Wort-Ubersetzung
X -> Haus || house
Phrasale Ubersetzung
X -> rießengroß || very big
Mischung aus Nicht-Terminalen und Terminalen
X -> drank X || habe X getrunken
Technische Regeln
S -> S X || S X
16
Im Gegensatz dazu nutzt ein syntaktisches System Nicht-Terminale aus der
Linguistik. Die Regeln sehen in einem syntaktischem System deutlich detail-
lierter aus:
Regeln
V -> schlaft || sleeps
DET -> das || the
NN -> Haus || house
NP -> das NN || the NN
NP -> DET Haus || DET house
NP -> DET NN || DET NN
VP -> V || V
S -> NP VP || NP VP
==> S -> das Haus schlaft || the house sleeps
17
3 Implementierungen in MOSES
All die zuvor beschriebenen Systeme sind bereits in MOSES implementiert.
Die fur diese Arbeit wichtigen Systeme sind das Phrasen-basierte, das hier-
archische und das syntaktische System. An all diesen Systemen werden Mo-
difikationen, meistens an der Phrasentabelle beziehungsweise ihrem syste-
mabhangigen Aquivalent, durchgefuhrt, um die Synonyme in MOSES zu in-
tegrieren.
3.1 Aufbau eines Ubersetzungssystems in MOSES
Das benutzte Europarl-Corpus wird”tokenisiert“, “truecased” und bereinigt
(Satzlange 1-80 Worter). Die benutzten Tuning- und Testsets werden eben-
falls”tokenisiert“ und “truecased”, jedoch nicht bereinigt, da es sich um
Ubersetzungstexte handelt und ein maschinelles Ubersetzungssystem dazu
in der Lage sein muss, jeden Satz ubersetzten zu konnen.
Ist dieser Vorgang abgeschlossen, wird das Sprachmodell (“language model”)
trainiert. Das Sprachmodell sorgt dafur, dass der “output” des zu ubersetzen-
den Textes flussig ist. Es wird nur fur die Zielsprache benotigt. Das verwen-
dete Sprachmodell wurde mit “Kneser-Ney Smoothing” [11] geglattet und
besteht aus “1-grams”, “2-grams” und “3-grams”. “Smoothing” [33] wird
benutzt, um Worter, die unbekannt sind oder sehr niedrige Frequenzen ha-
ben, zu berucksichtigen. Dies wird meist durch Kontextwahrscheinlichkeiten
berechnet. Das heißt genauer: Wie oft kommt ein Wort in einem Fenster
(Kontext) von Wortern vor? Die “Smoothing”variante “Kneser-Ney Smoo-
thing” zieht Bigramme hinzu, was weiter dazu beitragt, einen korrekten und
schnellen “output” zu erhalten. Ein simples Beispiel:
I can’t drink without my .
“York” hat eine sehr hohe Frequenz und taucht vermutlich eben-
falls sehr oft mit “drink” auf.
I can’t drink without my York.
Allerdings tritt “York” fast ausschließlich mit “New” auf - “New
York”. Deshalb wird “York” stark geglattet und andere, niedrig
18
frequentiertere Worter konnen bevorzugt werden:
I can’t drink without my glass.
Der nachste Schritt ist das Training des Systems. Hierbei werden das “ali-
gnment”, die Phrasen-Extraktion, die Bewertung und das Erstellen der Phrasen-
beziehungsweise Regeltabellen durchgefuhrt.
Nun hat man ein vollstandiges Ubersetzungssystem, das zwar bereits uber-
setzen kann, was aber ohne richtige Gewichtungen der Werte keine guten
Ergebnisse liefern wird.
Durch kontinuierliches Verandern der Werte beim Ubersetzen eines Tuningsets
und dessen automatischer, maschineller Evaluation werden die Gewichte nach
und nach so eingestellt, dass die Ergebnisse moglichst gut werden.
Ist das Tuning abgeschlossen, kann das System benutzt werden.
19
3.2 Phrasen-basiertes System in MOSES
Das Phrasen-basierte in MOSES implementierte System besteht aus einer
Phrasentabelle (phrase-table), die zur Ubersetzung dient, und einer Konfi-
gurationsdatei (moses.ini), die Dateipfade, Steuerparameter und Gewichtun-
gen der Werte in der Phrasentabelle beinhaltet. Außerdem gibt es noch eine
optionale “reordering”-Tabelle, die dazu dient, Worter und Phrasen neu an-
zuordnen.
Eine Phrase einer Phrasentabelle ist in MOSES normalerweise in folgender
Form aufgebaut:
Prinzip ||| principle ||| 0.62531 0.513461 0.785047 0.834375 2.718 ||| 0-0 ||| 403 321 252
Die Bedeutungen der Werte sind:
Quellwort/phrase ||| Ubersetzungswort/phrase ||| inverse Phrasenubersetzungs-wahrscheinlichkeit,
inverse lexikalische Gewichtung, direkte Phrasenubersetzungs-wahrscheinlichkeit, direkte
lexikalische Gewichtung, Phrase penalty ||| Wort-zu-Wort Ausrichtung ||| Frequenz c(e)
c(f) c(e,f)
Prinzipien des ||| principle of the ||| 0.111111 0.00191967 0.125 0.00441933 2.718 ||| 0-0
1-1 1-2 ||| 9 8 1
Am Beispiel dieser Phrase lasst sich die Ausrichtung der Worter leicht ver-
anschaulichen:”Prinzipien“ wird mit “principle” ubersetzt(0-0),
”des“ sowohl
mit “of”, als auch mit “the” (1-1,1-2).
Die anderen Werte der Phrasen und Worter werden uber die Konfigurati-
onsdatei gewichtet. Das Format der “reordering”-Tabelle ist ahnlich wie das
Format der Phrasentabelle:
Prinzip ||| principle ||| 0.925049 0.009862 0.065089 0.550296 0.013807 0.435897
Die Bedeutungen [16] dieser Werte sind Wahrscheinlichkeiten dafur, dass
das Wort oder die Phrase alleine steht (mono), mit der vorigen oder darauf
folgenden getauscht wird (swap) oder (disc) an einer Stelle in der Zielsprache
unterbrochen wird und spater im ubersetzten Satz zu Ende ubersetzt wird.
20
Quellwort/phrase ||| Ubersetzungswort/phrase ||| mono vorige Phrase, swap vorige Phrase,
disc vorige Phrase, disc folgende Phrase, swap folgende Phrase, mono folgende Phrase
Abbildung 10: Beispiele fur mono, swap, disc
21
Eine typische Konfigurationsdatei in MOSES enthalt Gewichtungseintrage
zu jedem Wert der zugehorigen Phrasen in der Phrasentabelle:
# translation model weights
0.200000
0.200000
0.200000
0.200000
0.200000
Diese Gewichtungen sind naturlich je nach Ubersetzungsmodell und Da-
ten der Phrasentabelle unterschiedlich. Geandert werden sie nicht per Hand
und Evaluation sondern via Tuning. Tuning bedeutet das automatische Fin-
den der lokal besten Gewichte anhand mehrerer Testlaufe mit einem klei-
nen Paralleldaten-Trainingscorpus und der anschließenden Evaluation mit
einem Bewertungsalgorithmus (BLEU, TER, ...). Dies geschieht in MOSES
per Skriptaufruf eines Tuningalgorithmus’. Im Rahmen dieser Arbeit wurde
immer Minimum Error Rate Training (MERT) [24] benutzt. Hierbei wer-
den alle Gewichte zufallig gewertet, Ubersetzungen durchgefuhrt und deren
BLEU-Werte berechnet. Dieser Prozess wiederholt sich so oft, bis keine Ver-
besserung des BLEU-Wertes mehr stattfindet. Nach dem mehrmaligem Tu-
ning sehen die Gewichte folglich anders aus, da die Ergebnisse durch das
Tuning eine bessere Bewertung erhalten haben.
Beispielweise:
# translation model weights
0.0639631
0.0275183
0.0490561
0.0478582
0.0759107
22
3.3 Hierarchisches System in MOSES
Das hierarchische System ist entgegen der unterschiedlichen Art und Weise
des Ubersetzungssystems (Phrasen-basiert versus Baum-basiert) in MOSES
relativ ahnlich aufgebaut wie das Phrasen-basierte System. Als Grundlage
dient ein “rule-table”, der die gleichen lexikalischen Informationen enthalt,
die auch die Phrasentabelle enthalt. Ebenfalls gibt es auch eine moses.ini,
die auch hier die Steuerung der Gewichte und der Konfiguration ubernimmt.
Lediglich der “Reorderingtable” fallt weg. Die”Grammatik“des Systems ist
in der “glue-grammar” zu finden. Eine Regel aus dem “rule-table” sieht so
aus:
Prinzip [X] ||| principle [X] ||| 0.288774 0.182108 0.745215 0.802217 2.718 ||| 0-0 ||| 10787
4180 311
Die Integration des Zeichens ’[X]’ kennzeichnet das hierarchische System in
MOSES.
Die linguistische Bedeutung fur diese Schreibweise ist:
X —> Prinzip | X —> principle
Naturlich gilt dieses Format ebenfalls fur komplexere Phrasen, das Prinzip,
das dahinter steckt, bleibt jedoch das selbe:
[X][X] wie [X] ||| [X][X] in how [X] ||| 0.233608 0.31823 0.000115895 0.000506413 2.718
||| 0-0 1-1 1-2 ||| 16.9292 34124 3.954
Die Bedeutungen der Werte entsprechen denen der Phrasentabelle:
Quellwort/phrase ||| Ubersetzungswort/phrase ||| inverse Phrasenubersetzungs-wahrscheinlichkeit,
inverse lexikalische Gewichtung, direkte Phrasenubersetzungs-wahrscheinlichkeit, direkte
lexikalische Gewichtung, Phrase penalty ||| Wort-zu-Wort Ausrichtung ||| Frequenz c(e)
c(f) c(e,f)
23
Die Grammatikdatei “glue-grammar” ist im Normalfall relativ kurz gehalten.
Eine typische Grammatik ist:
<s>[X] ||| <s>[S] ||| 1 ||| ||| 0
[X][S] </s>[X] ||| [X][S] </s>[S] ||| 1 ||| 0-0 ||| 0
[X][S] [X][X] [X] ||| [X][S] [X][X] [S] ||| 2.718 ||| 0-0 1-1 ||| 0
Die Steuerungsdatei ist bis auf die Umstellung auf den Eingabetypen der
Daten und das Ubersetzungsmodell ebenfalls identisch mit der des Phrasen-
basierten Modells. Training und Tuning konnen allerdings nicht ubernommen
werden, sondern mussen mit den selben Ausgangsdaten neu ausgefuhrt wer-
den. Der Rechenaufwand ist im Gegensatz zum Phrasen-basierten System
merklich hoher, da durch die zusatzlichen Grammatikregeln mehr Rechenlei-
stung beansprucht wird.
24
3.4 Syntaktisches System in MOSES
Das syntaktische System in MOSES ist komplexer als das Phrasen-basierte
und das hierarchische System. Die Regeltabelle ist nicht wie im hierarchi-
schen Modell mit Nicht-Terminalen ohne linguistischen Hintergrund verse-
hen, sondern mit korrekten, linguistischen Nicht-Terminalen. Um dies zu be-
werkstelligen, muss dafur das Trainingscorpus mit einem Parser, der jedes
Wort und jeden Satz mit einem linguistischen Nicht-Terminal versieht, ge-
parsed werden. Als Parser wird der BerkeleyParser [36] [28] [29] verwendet.
Der BerkeleyParser hat sowohl eine deutsche Grammatik, als auch eine na-
tive MOSES Unterstutzung in Form eines Wrappers (passt die Ausgabe des
Parsers an MOSES an) und gilt als allgemein sehr verlasslich. Dadurch ist
jeder Satz durch einen Baum (siehe Abbildung 8) darstellbar. Jedoch dient
ein solcher Baum nur zur Veranschaulichung und spielt fur das System keine
große Rolle. Viel mehr geht es darum, dass jeder Satz so seine grammatische
Gesamtheit intakt halt und keine Satze beim Ubersetzen entstehen sollen,
die grammatikalisch falsch sind. Ein”geparseter“ Beispielsatz:
”Im Parlament besteht der Wunsch nach einer Aussprache im Verlauf dieser
Sitzungsperiode in den nachsten Tagen.“
sieht nach dem Parsen dann so aus:
(TOP(S-TOP(PP-MOV(APPRART-AC-Dat.Sg.Neutin Im)(NN-
HD-Dat.Sg.Neut Parlament))(VVFIN-HD-Sg besteht)(NP-SBSg(ART-
HD-Nom.Sg.Masc der)(NN-HD-Nom.Sg.Masc Wunsch)(PP-MNRN(APPR-
ACDat nach)(ART-HD-Dat.Sg.Fem einer)(NN-HD-Dat.Sg.Fem
Aussprache)))(PP-MOV(APPRART-AC-Dat.Sg.Mascin im)(NN-
HD-Dat.Sg.Masc Verlauf)(NP-AG(PDAT-HD-Gen.Sg.Fem die-
ser)(NN-HD-Gen.Sg.Fem Sitzungsperiode)))(PP-MOV(APPR-
ACDatin in)(ART-HD-Dat.Pl.Masc den)(ADJA-HD-Sup.Dat.Pl.Masc
nachsten)(NN-HD-Dat.Pl.Masc Tagen)))($. .))
Das Parsen ist sowohl auf Quellseite, als auch auf Zielseite moglich. In die-
ser Arbeit wird nur die Quellseite”geparset“. Das entstehende System wird
“TreeToString‘” genannt, da die”geparsete“ Seite (Tree) in eine nicht
”ge-
parsete“ Seite (String) uberfuhrt wird. Die Zielseite ist somit identisch mit
25
dem Format des hierarchischen Systems. Die Dateistruktur ist der des hier-
archischen Modells sehr ahnlich: rule-table, moses.ini, glue-grammar.
Eine Phrase sieht nun so aus:
gemeinsamer Interessen [NP] ||| of common interest [X] ||| 0.0126582 0.00109454 0.0625
0.00279748 2.718 ||| 0-1 1-2 ||| 158 32
wenigstens im Parlament [NP][X] erheben [VP] ||| raise [NP][X] , at any rate here in
Parliament [X] ||| 1 3.89968e-06 0.5 7.84512e-14 2.718 ||| 0-3 1-7 2-8 3-1 4-0 ||| 0.5 1 0.5
Es gibt im syntaktischen System (in diesem Falle TreeToString) exakte Re-
geln, wie die Ubersetzung stattzufinden hat. In der Linguistik sahen diese
beiden Regeln aus:
NP —> gemeinsamer Interessen | X —> common interest
VP —> wenigstens im Parlament NP X erheben | X —> raise NP X, at any rate here in Parliament
Die Grammatikdatei “glue-grammar” ist in diesem System identisch zu der
Grammatik des hierarchischen Systems:
<s>[X] ||| <s>[S] ||| 1 ||| ||| 0
[X][S] </s>[X] ||| [X][S] </s>[S] ||| 1 ||| 0-0 ||| 0
[X][S] [X][X] [X] ||| [X][S] [X][X] [S] ||| 2.718 ||| 0-0 1-1 ||| 0
Ein “TreeToTree”-System hingegen hatte eine deutlich detailliertere Gram-
matik: (Auszug)
<s>[X] ||| <s>[Q] ||| 1 |||
[X][Q] </s>[X] ||| [X][Q] </s>[Q] ||| 1 ||| 0-0
<s>[X][adjp] </s>[X] ||| <s>[X][adjp] </s>[Q] ||| 1 ||| 1-1
<s>[X][advp] </s>[X] ||| <s>[X][advp] </s>[Q] ||| 1 ||| 1-1
<s>[X][cc] </s>[X] ||| <s>[X][cc] </s>[Q] ||| 1 ||| 1-1
<s>[X][cd] </s>[X] ||| <s>[X][cd] </s>[Q] ||| 1 ||| 1-1
Andere Abweichungen liegen nur in der Steuerdatei vor. Wie auch bei den
anderen Systemen benotigt es wiederum ein erneutes Training und Tuning
fur dieses System, das von den drei beschriebenen Systemen aufgrund der
vielen Regeln mit Abstand die hochste Rechenleistung beansprucht, jedoch
auch eine deutlich geringere Große in der Regeltabelle aufweist.
26
3.5 Technischer Uberblick uber die generierten MO-
SES Systeme und Daten
Die Systeme wurden alle mit den gangigen Einstellungen und MOSES Hilfs-
mitteln erstellt. Außerdem wurden die Test- und Tuningsets sowie die ent-
standenen Ubersetzungen mit Hilfe eines Pythonscripts normalisiert (Akzen-
te und storende Sonderzeichen umgewandelt), um Encodingfehlern bei der
Auswertung vorzubeugen. Beispiel:”Lukas Kaucky“ ==>
”Lukas Kaucky“
Allgemeine Daten:
Corpus (Europarl-v7): 1885894 Satze
Tuningset (Newstest-2008): 2051 Satze
Testset (Newstest-2011): 3003 Satze
Language Model: 3-gram, improved Kneser-Ney [11]
Phrasen-basiert:
Corpus (Europarl-v7): tokenized, truecased, cleaned (Lange 1-80)
Test- und Tuningsets: tokenized, truecased, normalisiert
Training: -alignment grow-diag-final-and -reordering msd-bidirectional-fe
Hierarchisch:
Corpus (Europarl-v7): tokenized, truecased, cleaned (Lange 1-80)
Test- und Tuningsets: tokenized, truecased, normalisiert
Training: -alignment grow-diag-final-and
Syntax:
Corpus (Europarl-v7): tokenized, ,truecased, cleaned (Lange 1-80), geparsed mit Ber-
keleyParser
Test- und Tuningsets: tokenized, truecased, normalisiert
Training: -alignment grow-diag-final-and
27
3.6 Einspeisung der Thesaurusdaten in MOSES
Um MOSES mit Hilfe der Synonymdaten zu verbessern, mussen die Synonym-
informationen ihren Weg in MOSES finden. Mit Hilfe eines selbst geschriebe-
nen Pythonskripts werden die Daten in die Phrasentabelle von MOSES inte-
griert. Hierzu werden sowohl neue Eintrage in die Phrasentabelle beziehungs-
weise Regeltabelle aufgenommen als auch ein neuer Wert zu allen bereits
bestehenden hinzugefugt. Dieser Wert soll bei der Ubersetzung mitberuck-
sichtigt werden, um die Qualitat zu verbessern. Die Gewichtung des neuen
Wertes wird anfangs auf einen zufalligen Wert gesetzt und spater durch das
Tuning automatisch angepasst, sodass die hochste Verbesserung der Uber-
setzung stattfindet. Die verschiedenen Methoden, um ein Synonym zu einem
Quellwort zu finden, basieren auf den Korpusfrequenzen der Synonyme. So
werden fur jedes Quellwort, fur das ein Synonym gefunden werden soll, alle
semantischen Gruppen aus OpenThesaurus extrahiert und je nach Methode
Synonyme aus der Gruppe extrahiert und in die Phrasen- beziehungsweise
Regeltabelle eingefugt.
Die Methoden, die benutzt werden, sind:
Hochste Frequenz: Es wird nur ein Synonym pro semanti-
scher Gruppe pro Wort gesucht. Das Zielsynonym hat hierbei die
hochste Frequenz. Diese Form der Synonymauswahl soll fur die
hochste Qualitat bei sehr allgemeinen Domanen sorgen, da nur
Synonyme integriert werden, die sehr haufig gebraucht werden.
Sehr spezifische Domanen werden vermutlich weder einen großen
Qualitatszuwachs noch eine Erhohung der “OOV-Rates” bekom-
men.
Alle Synonyme: Es werden alle Synonyme aus jeder semanti-
schen Gruppe des Anfragewortes integriert. Diese Methode stei-
gert vor allem die OOV-Rates. Da keinerlei Auswahl stattfindet
und die Synonyme”nur“ durch die Corpusfrequenzen beschrankt
werden, kann die Ubersetzungsqualitat starker abnehmen, wenn
das Tuning nicht sehr genau das richtige Gewicht bestimmt.
Treshhold 50: Es werden diejenigen Synonyme aus jeder seman-
28
tischen Gruppe des Anfragewortes integriert, die mindestens eine
Corpusfrequenz von 50 haben. Mit dieser Methode sollen sehr
seltene Worter wegfallen, um die Problematik der”Alle Synony-
me“ Methode abzuschwachen, die OOV-Rates jedoch immer noch
stark zu erhohen.
Treshhold 1000: Es werden diejenigen Synonyme aus jeder se-
mantischen Gruppe des Anfragewortes integriert, die mindestens
eine Corpusfrequenz von 1000 haben. Die Corpusfrequenz 1000
ist nach einer Corpusanalyse ein guter Durchschnittswert, um
Worter zu erfassen, die zwar tatsachlich im Sprachgebrauch ge-
nutzt werden, jedoch dennoch oft genug in kleineren Parallelcor-
pora fehlen. Eine Datenbankabfrage mit einer Frequenzreichweite
von 999 - 1001 bei Nomen liefert:
Formierung, Grundpfeiler, Statistiker, Bundesgesund-
heitsministerium, Gestaltungen, Außenministerin, Bits,
Geldmangel, Brise, usw..
Diese Begriffe sind alle noch im alltaglichen Sprachgebrauch zu
finden, werden jedoch nicht so haufig verwendet. Stellt man die-
selbe Abfrage mit einer Frequenzreichweite von 99-101, so werden
folgende Begriffe genannt:
Bundespersonalvertretungsgesetz, Streitlust, Tropenme-
diziner, Gesamtsozialversicherungsbeitrag, Kariesprophy-
laxe, usw..
Man erkennt, dass diese Begriffe sehr viel spezifischer sind - ver-
mutlich zu spezifisch, um in einer Ubersetzung benutzt zu werden.
Ahnlich wie bei der”hochsten Frequenz“-Methode sind mit dieser
Methode qualitativ bessere Ergebnisse zu erwarten.
Zur Veranschaulichung dient ein Auszug zur Methode”hochste Frequenz“ aus
OpenThesaurus mitsamt den Korpusfrequenzen der einzelnen Eintrage am
Beispiel des Wortes”Rechner“:
29
Query: Rechner
Group 1
Computer 47522
Rechner 19960
Datenverarbeitungsanlage 128
Rechenknecht 47
Universalrechner 30
Elektronengehirn 28
Elektronenhirn 10
>> Computer
Group 2
Rechner 19960
Taschenrechner 1004
Rechenmaschine 395
>> Rechner
Group 3
System 99337
Rechner 19960
Maschine 17995
Kiste 5489
Personalcomputer 272
Komplettsystem 59
>> System
30
Die Ergebnisse mit der hochsten Frequenz fur das Beispiel”Rechner“ sind
”Computer“,
”Rechner“ und
”System“. Eine kleine Phrasentabelle mit der
Anfrage”Rechner“ ergibt:
Rechner ||| a computer ||| 0.0222222 0.0336134 0.0625 0.00945555 2.718 ||| 0-1 ||| 45 16 1
Rechner ||| computer try ||| 0.25 0.0336134 0.0625 0.000101 2.718 ||| 0-0 ||| 4 16 1
Rechner ||| computer ||| 0.0721649 0.0336134 0.4375 0.5 2.718 ||| 0-0 ||| 97 16 7
Rechner ||| computers ||| 0.0138889 0.0277778 0.125 0.25 2.718 ||| 0-0 ||| 144 16 2
Rechner ||| machines ||| 0.0169492 0.0140845 0.0625 0.0625 2.718 ||| 0-0 ||| 59 16 1
Rechner ||| mainframe computer ||| 1 0.116807 0.0625 0.03125 2.718 ||| 0-0 0-1 ||| 1 16 1
Rechner ||| thinking computers ||| 1 0.0277778 0.0625 3.625e-05 2.718 ||| 0-1 ||| 1 16 1
Um die Einspeisung in MOSES abzuschließen, werden zwei bereits ange-
schnittene Schritte durchgefuhrt. Zuerst werden die extrahierten Synonyme
in die originale Phrasentabelle kopiert und daraufhin wird ein sechster Wert
fur alle Phrasenpaare eingefuhrt. Dieser Wert errechnet sich aus 95% [3] der
Korpusfrequenz. Synonyme eines Wortes stimmen in den meisten Fallen se-
mantisch mit ihrem Ursprungswort uberein. Die Reduktion des neuen Wertes
auf 95% scheint deshalb sinnvoll, da so das Originalwort zwar einen hoher-
en Stellenwert bekommt, die Synonyme jedoch nicht zu stark beschnitten
werden. Ein kompletter Eintrag, der aus”Rechner“ entsteht, sieht in der
modifizierten Phrasentabelle wie folgt aus:
Rechner ||| a computer ||| 0.0222222 0.0336134 0.0625 0.00945555 2.718 18962 ||| 0-1 ||| 45
16 1
Rechner ||| computer try ||| 0.25 0.0336134 0.0625 0.000101 2.718 18962 ||| 0-0 ||| 4 16 1
Rechner ||| computer ||| 0.0721649 0.0336134 0.4375 0.5 2.718 18962 ||| 0-0 ||| 97 16 7
Rechner ||| computers ||| 0.0138889 0.0277778 0.125 0.25 2.718 18962 ||| 0-0 ||| 144 16 2
Rechner ||| machines ||| 0.0169492 0.0140845 0.0625 0.0625 2.718 18962 ||| 0-0 ||| 59 16 1
Rechner ||| mainframe computer ||| 1 0.116807 0.0625 0.03125 2.718 18962 ||| 0-0 0-1 ||| 1
16 1
Rechner ||| thinking computers ||| 1 0.0277778 0.0625 3.625e-05 2.718 18962 ||| 0-1 ||| 1 16
1
Computer ||| a computer ||| 0.0222222 0.0336134 0.0625 0.00945555 2.718 45145.9 ||| 0-1
||| 45 16 1
31
Computer ||| computer try ||| 0.25 0.0336134 0.0625 0.000101 2.718 45145.9 ||| 0-0 ||| 4 16
1
Computer ||| computer ||| 0.0721649 0.0336134 0.4375 0.5 2.718 45145.9 ||| 0-0 ||| 97 16 7
Computer ||| computers ||| 0.0138889 0.0277778 0.125 0.25 2.718 45145.9 ||| 0-0 ||| 144 16
2
Computer ||| machines ||| 0.0169492 0.0140845 0.0625 0.0625 2.718 45145.9 ||| 0-0 ||| 59 16
1
Computer ||| mainframe computer ||| 1 0.116807 0.0625 0.03125 2.718 45145.9 ||| 0-0 0-1
||| 1 16 1
Computer ||| thinking computers ||| 1 0.0277778 0.0625 3.625e-05 2.718 45145.9 ||| 0-1 ||| 1
16 1
System ||| a computer ||| 0.0222222 0.0336134 0.0625 0.00945555 2.718 94370.15 ||| 0-1
||| 45 16 1
System ||| computer try ||| 0.25 0.0336134 0.0625 0.000101 2.718 94370.15 ||| 0-0 ||| 4 16 1
System ||| computer ||| 0.0721649 0.0336134 0.4375 0.5 2.718 94370.15 ||| 0-0 ||| 97 16 7
System ||| computers ||| 0.0138889 0.0277778 0.125 0.25 2.718 94370.15 ||| 0-0 ||| 144 16 2
System ||| machines ||| 0.0169492 0.0140845 0.0625 0.0625 2.718 94370.15 ||| 0-0 ||| 59 16 1
System ||| mainframe computer ||| 1 0.116807 0.0625 0.03125 2.718 94370.15 ||| 0-0 0-1 ||| 1
16 1
System ||| thinking computers ||| 1 0.0277778 0.0625 3.625e-05 2.718 94370.15 ||| 0-1 ||| 1
16 1
Worter, die nicht in den zur Frequenzbestimmung benutzten Corpora vor-
kommen, werden mit dem Wert”0“ an der sechsten Stelle versehen. Darunter
fallen zwangsweise auch Phrasen. Die Einspeisung in die anderen Systeme
funktioniert auf die gleiche Art und Weise, allerdings wird im hierarchischen
und syntaktischen System naturlich die grammatische Struktur beibehalten.
32
3.7 Morphologische Erweiterung fur alle Systeme
Um die Synonymsuche zu erweitern und sie einer zusatzlichen Fehlerkorrek-
tur zu unterziehen, ist es moglich, mit einem morphologischen Analysetool
zu arbeiten. Hierzu bietet sich SMOR [32] an. Mit dem Programm ist es
moglich, jedes Wort in seinen Wortstamm zu zerlegen.
>Hubschraubereinsatzzentrale
Hubschrauber<NN>Einsatz<NN>Zentrale<+NN><Fem><Nom><Sg>
Hubschrauber<NN>Einsatz<NN>Zentrale<+NN><Fem><Gen><Sg>
Hubschrauber<NN>Einsatz<NN>Zentrale<+NN><Fem><Dat><Sg>
Hubschrauber<NN>Einsatz<NN>Zentrale<+NN><Fem><Acc><Sg>
Naturlich wird fur die Synonymsuche nur ein Teil dieser Analyse benotigt,
denn es macht keinen Sinn, ein Kompositum wie”Hubschraubereinsatzzen-
trale“ in seine Einzelteile zu zerlegen, um fur diese ein Synonym zu suchen.
SMOR kann fur die Synonymsuche lediglich dazu benutzt werden, um die
morphologische Form eines Wortes zu bestimmen, es auf die Lemmaform
zu bringen, um dann ein Synonym zu suchen, das in die Ausgangsform des
gesuchten Wortes gebracht werden kann. Beispiel:
Ausgangswort: Balle
Thesaurus Query: Balle
Balle nicht im Thesaurus vorhanden
SMOR:
>Balle
Ball<+NN><Masc><Nom><Pl>
Ball<+NN><Masc><Gen><Pl>
Ball<+NN><Masc><Acc><Pl>
Thesaurus Query: Ball
Ball 22328
Tanzabend 138
33
Tanzveranstaltung 127
Tanzfest 73
Tanzerei 23
SMOR:
>Tanzabend
Tanz<NN>Abend<+NN><Masc><Nom><Sg>
Tanz<NN>Abend<+NN><Masc><Dat><Sg>
Tanz<NN>Abend<+NN><Masc><Acc><Sg>
Ausgangswort Features: Ball<+NN><Masc><Nom><Pl>
Zielwort Features: Tanzabend<+NN><Masc><Nom><Pl>
SMOR:
>Tanz<NN>Abend<+NN><Masc><Nom><Pl>
Tanzesabende
Tanzabende
Tanzeabende
Query Corpusfrequeny:
Tanzesabende -
Tanzabende NN 72
Tanzeabende -
Diese Schritte bringen das Ergebnis, dass”Tanzabende“ ein Synonym von
”Balle“ ist. Der letzte Schritt der Uberprufung der Corpusfrequenz ist des-
halb notwendig, da die Generationsheuristik von SMOR oftmals bei Kompo-
sita ubergeneriert und Worter bildet, die es so nicht gibt. Dieser komplette
Prozess fuhrte am Beispiel Europarl zu 162 weiteren Lemmaformen, die durch
Synonyme ersetzt werden konnten. Keines der Worter befand sich im Testset
Newstest2011.
34
4 Evaluation
Durch die Wahl des Testsets (Newstest 2011) erzielten alle getesteten Syste-
me relativ niedrige BLEU- und TER-Scores. In diesem Testset sind sehr viele
”seltene“ Worter und
”ausgefallene“ Worter wie
”Ordensschwester, Spezial-
heim, Ortsregierung, Sozialmaßnahme“, die erstens in EuroParl (und vielen
anderen Corpora) nicht vorkommen und zweitens auch sehr selten von Syn-
onymen erganzt werden konnen. Bei Vorab-Testlaufen mit kleineren Corpora
konnten sowohl hohere Scores als auch geringere Verschlechterungen beob-
achtet werden. Die Einfuhrung eines sechsten Gewichtes, der Corpusfrequenz,
beeinflusste die Qualitat der getesteten Systeme trotz des Wertes”0“ bei
Phrasen nach ausreichendem Tuning nicht negativ.
4.1 Quantitative Analyse
Interessant sind die Unterschiede der fehlenden Worter. In der Originaluber-
setzung fehlen einige Worter, die nicht sehr”exotisch“ sind. Das Fehlen die-
ser Wortergruppe konnte durch das Einfugen der Synonyme beseitigt wer-
den. Besonders ausgefallene Worter, vor allem lange Komposita, wie”Staats-
haushaltsverschuldung, FIFA-Hauptsponsoren, Online-Game-Wettbewerbe“
blieben weiterhin unerkannt und nicht ubersetzbar.
Die durch die Modifikationen hinzugefugten, komplett fehlenden Worter sind:
(”-” bedeutet, dass alle Worter, die bei”allen Synonymen“ stehen bis auf die
Worter, die ein ”-”Zeichen haben, hinzugefugt worden sind)
Alle Synonyme:
Wundbrand, bewegungslos, betrinken, Dispatcher, Geschoss, Mi-
nustemperaturen, Demo, Schotter, Glasblaser, erspahen, Außen-
border, Geldhaus, Hugellandschaft, Pusher, Kreme, Schulbuch,
Forschungsanstalt, Muhsal, Geburtsjahr, Pappkarton, Erzahlung,
Spielzeit, verstoffwechseln, Dorada, Hotelbesitzer, Justizgebaude,
Schneeschmelze, H2O, Zeitverschiebung, Unstetigkeit
35
Treshhold 50:
-Wundbrand, -Dispatcher, -Pusher, -Kreme, -verstoffwechseln, -
H2O
Treshhold 1000:
-Wundbrand, -bewegungslos, -betrinken, -Dispatcher, -Geschoss,
-Minustemperaturen, -Schotter, -Glasblaser, -erspahen, -Außenborder,
-Geldhaus, -Hugellandschaft, -Pusher, -Kreme, -Schulbuch, -Forschungsanstalt,
-Muhsal, -Geburtsjahr, -Pappkarton, -verstoffwechseln, -Dorada,
-Hotelbesitzer, -Justizgebaude, -Schneeschmelze, -H2O, -Zeitverschiebung,
-Unstetigkeit
Hochste Frequenz:
-Wundbrand, -bewegungslos, -betrinken, -Dispatcher, -Geschoss,
-Minustemperaturen, -Demo, -Schotter, -erspahen, -Geldhaus, -
Hugellandschaft, -Pusher, -Kreme, -Schulbuch, -Forschungsanstalt,
-Muhsal, -Geburtsjahr, -Pappkarton, -Spielzeit, -verstoffwechseln,
-Hotelbesitzer, -Justizgebaude, -H2O, -Unstetigkeit
36
4.2 Phrasen-basiertes System
Phrasen- und Reorderingtabelle BLEU TERTextOOV
VocabOOV
Original 18.67 0.6414 0.2170 0.0117
Modifiziert (hochste Frequenz) 17.68 0.6513 0.2163 0.0116
Modifiziert (alle Synonyme) 17.64 0.6485 0.2150 0.0114
Modifiziert (Treshhold 50) 17.67 0.6483 0.2154 0.0115
Modifiziert (Treshhold 1000) 17.74 0.6470 0.2168 0.0116
Tabelle 1: Ergebnisse fur das Phrasen-basiertes System
Systeme Original Ho. Fr. Alle Syn. TH 50 TH 1000
Original x 0 0 0 0Hochste Frequenz 0 x 0.335 0.356 0.114
Alle Synonyme 0 0.335 x 0.058 0Treshhold 50 0 0.356 0.058 x 0.002
Treshhold 1000 0 0.114 0 0.002 x
Tabelle 2: Statistische Signifikanz (Werte <= 0.05 bedeuten Signifikanz)Phrasen-basiert
37
4.3 Hierarchisches System
Regeltabelle BLEU TERTextOOV
VocabOOV
Original 18.19 0.6473 0.2163 0.0116
Modifiziert (hochste Frequenz) 17.96 0.6515 0.2156 0.0115
Modifiziert (alle Synonyme) 17.94 0.6522 0.2143 0.0113
Modifiziert (Treshhold 50) 17.94 0.6522 0.2147 0.0114
Modifiziert (Treshhold 1000) 17.94 0.6520 0.2161 0.0115
Tabelle 3: Ergebnisse fur das hierarchische System
Systeme Original Ho. Fr. Alle Syn. TH 50 TH 1000
Original x 0.042 0.036 0.035 0.024Hochste Frequenz 0.042 x 0.183 0.210 0.182
Alle Synonyme 0.036 0.183 x 0.211 0.345Treshhold 50 0.035 0.210 0.211 x 0.402
Treshhold 1000 0.024 0.182 0.345 0.402 x
Tabelle 4: Statistische Signifikanz (Werte <= 0.05 bedeuten Signifikanz)hierarchisches System
38
4.4 Syntaktisches System
Regeltabelle BLEU TERTextOOV
VocabOOV
Original 16.38 0.6634 0.2168 0.0116
Modifiziert (hochste Frequenz) 15.53 0.6804 0.2160 0.0116
Modifiziert (alle Synonyme) 15.52 0.6805 0.2149 0.0113
Modifiziert (Treshhold 50) 15.49 0.6857 0.2153 0.0114
Modifiziert (Treshhold 1000) 15.53 0.6805 0.2165 0.0116
Tabelle 5: Ergebnisse fur das syntaktische System
Systeme Original Ho. Fr. Alle Syn. TH 50 TH 1000
Original x 0 0 0 0Hochste Frequenz 0 x 0.168 0.152 0.177
Alle Synonyme 0 0.168 x 0.147 0.374Treshhold 50 0 0.152 0.147 x 0.145
Treshhold 1000 0 0.177 0.374 0.145 x
Tabelle 6: Statistische Signifikanz (Werte <= 0.05 bedeuten Signifikanz)Syntax System
39
4.5 Qualitative Analyse
Kein System konnte mit einer der angewandten Methoden verbessert werden.
Lediglich die OOV-Rates konnten, wie erwartet, gesenkt werden. Die besten
BLEU- und TER-Werte der Modifikationen konnten “Threshhold 1000” und
”hochste Frequenz“ erzielen, die niedrigsten OOV-Rates naturlich die
”al-
le Synonyme“ Methode. Dies spiegelte sich auch in der Große der Phrasen-
beziehungsweise Regeltabellen wider. “Threshhold 1000” und”hochste Fre-
quenz“ sind in allen drei Systemen von ahnlicher Große, decken jedoch un-
terschiedliche Synonymdomanen ab. Bei den Methoden, bei denen sehr viele
Synonyme in die Tabellen integriert wurden, waren die Ergebnisse schlechter.
Die hoheren Qualitatseinbußen liegen vor allem daran, dass eigentlich”gu-
te“ Ubersetzungen durch”schlechte“ Ubersetzungen ubertrumpft werden auf
Grund hoherer Corpusfrequenzen. Die drei benutzten Systeme unterscheiden
sich zwar stellenweise in ihren Ubersetzungen, jedoch nur geringfugig. Das
Phrasen-basierte und das hierarchische System erzeugten generell sehr ahn-
liche Ubersetzungen. Das syntaktische System, das die schlechtesten BLEU-
und TER-Werte hatte, erzeugte oft eine sich im Satzbau unterscheidende
Ubersetzung.
40
Systeme UbersetzungsbeispieleReferenz (1) After the New Year the vast majority of dwellings
with non-market rent in the Czech Republic will besubject to deregulation.(2) However, if the parties fail to agree on the lease, anindependent tribunal will have to establish the rent.
Phrasen-basiert (1) After the New Year is this deregulation the ma-jority of renting in the Czech Republic before, whosetenants not been market-oriented rent pay.(2) Should the Mietparteien but not on the new rentsome, it will set by an independent court.
Hierarchisch (1) After the New Year is this deregulation the ma-jority of renting in the Czech Republic before, whosetenants not been market-oriented rent pay.(2) Should the Mietparteien but not on the new rentsome, it will set by an independent court.
Syntax-basiert (1) After the New Year is this deregulation the ma-jority of renting in the Czech Republic before, theirtenants so far no market-oriented rent pay.(2) Should be the Mietparteien but not on the newrent some, will it by an independent court established.
Tabelle 7: Ubersetzungsbeispiele der einzelnen Systeme im Originalzustand
41
Die Unterschiede der verschiedenen Modifikationen (und warum die Qualitat
unter zu vielen Synonymen leidet) werden aus folgender Tabelle deutlich:
Modifikationen UbersetzungsbeispieleReferenz After the New Year the vast majority of dwellings
with non-market rent in the Czech Republic willbe subject to deregulation.
Original After the New Year is this deregulation the majo-rity of renting in the Czech Republic before, whosetenants not been market-oriented rent pay.
Hochste Frequenz After the New Year is this deregulation most ren-ting before in the Czech Republic, whose tenantsstill no market-oriented rent regulate.
Alle Synonyme After the New Year is this deregulation most ren-ting before in the Czech Republic, whose tenantsstill no market-oriented bunker pay.
Treshhold 50 After the New Year is this deregulation most ren-ting before in the Czech Republic, whose tenantsstill no market-oriented rent pay.
Treshhold 1000 After the New Year is this deregulation most ren-ting before in the Czech Republic, whose tenantsstill no market-oriented rent pay.
Tabelle 8: Ubersetzungsbeispiele der modifizierten Systeme(Phrasen-basiert)
Kurze, oft genutzte Worter wie hier “not been” werden in allen Modifika-
tionen zu “still no”, was noch kein großes Problem darstellt, da die Be-
deutung tatsachlich sehr ahnlich ist. Eine sehr seltsame Ubersetzung findet
sich im Beispiel fur alle Frequenzen:”Miete“ wird nicht mit “rent”, son-
dern mit “bunker” ubersetzt. Diese Ubersetzung kommt zustande, da”Mie-
te“ tatsachlich ein Synonym fur Bunker ist (Miete; Vorratsgrube; Bunker;
Erdbunker) und daraufhin in der Phrasentabelle ein Eintrag vorhanden ist,
der Miete mit der Ubersetzung fur Bunker (eng: bunker) ubersetzt. Da die
Ubersetzung “bunker” fur”Bunker“ sehr gut ist und es nun einen Eintrag
mit identischen Werten - bis auf die Corpusfrequenz - gibt, wird Miete nun
42
nicht mehr mit “rent” ubersetzt, sondern mit “bunker”. Die Corpusfrequenz,
die bei Miete zwar hoch ist (Miete NN 9609) und bei Bunker relativ klein
(Bunker NN 2621), reicht aber aufgrund der durch das Tuning festgelegten
niedrigen Gewichtung nicht aus, um die anderen, hoheren Werte fur die Ein-
trage von Miete zu bevorzugen.
Miete ||| bunker ||| 0.5 0.125 0.75 0.8 2.718 2489.95 ||| 0-0 ||| 6 4 3
...
Miete ||| rent ||| 0.377358 0.266667 0.322581 0.615385 2.718 9609 ||| 0-0 ||| 53 62 20
Dieses Beispiel macht deutlich, warum zu viele Synonyme storend sein konnen.
43
Modifikationen UbersetzungsbeispieleReferenz After the New Year the vast majority of dwellings
with non-market rent in the Czech Republic willbe subject to deregulation.
Original After the New Year is this deregulation the majo-rity of renting in the Czech Republic before, whosetenants not been market-oriented rent pay.
Hochste Frequenz Following this deregulation New Year is most ren-ting in the Czech Republic, before their tenants,so far not paying rent market-oriented.
Alle Synonyme Following this deregulation New Year is most ren-ting in the Czech Republic, before their tenants,so far not paying rent market-oriented.
Treshhold 50 Following this deregulation New Year is most ren-ting in the Czech Republic, before their tenants,so far not paying rent market-oriented.
Treshhold 1000 Following this deregulation New Year is most ren-ting in the Czech Republic, before their tenants,so far not paying rent market-oriented.
Tabelle 9: Ubersetzungsbeispiele der modifizierten Systeme (hierarchischesSystem)
Die Verwendung des hierarchischen Systems schrankte durch die in der Re-
geltabelle enthaltenen Ubersetzungsregeln die Varianz etwas ein. Das obige
Beispiel wurde bei allen Modifikationen gleich ubersetzt. Die Regeln tragen
ebenfalls dazu dabei, dass die Grammatik zumindest teilweise korrekt bleibt
und die modifizierten Systeme eine grammatikalisch bessere Ubersetzung
des letzten Teilsatzes liefern. “... whose tenants not been market-oriented
rent pay” ist semantisch identisch mit “... their tenants, so far not pay-
ing rent market-oriented”, jedoch grammatikalisch schlechter. Im Gegensatz
zum Phrasen-basierten System lagen die Ergebnisse der Modifkationen naher
beieinander. Der Qualitatsverlust fiel deutlich geringer aus. Dies ist auf die
Inklusion der Regeln zuruckzufuhren. Deshalb gibt es beim hierarchischen
System auch einige Positivbeispiele fur das Einspeisen vieler Synonyme.
44
Modifikationen UbersetzungsbeispieleHierarchisch
Referenz There is also a device that beats the finishedice cream mixture to a creamy consistencywhile cooling it to negative temperatures.
Original There is also a device, in which the ready-made Eis-Mischung Minustemperaturen atthe same time cremig beaten and cooling.
Hochste Frequenz There is also a device, in the same time theready-made Eis-Mischung cremig Minustem-peraturen on beaten and cooling.
Alle Synonyme There is also a device, in the same time theready-made Eis-Mischung cremig beaten andto frost cooling.
Treshhold 50 There is also a device, in the same time theready-made Eis-Mischung cremig beaten andto frost cooling.
Treshhold 1000 There is also a device, in the same time theready-made Eis-Mischung cremig Minustem-peraturen on beaten and cooling.
Phrasen-basiertHochste Frequenz There are also a device, in the same time the
ready-made Eis-Mischung cremig beaten andon Minustemperaturen cooling.
Alle Synonyme There is also a unity, in the same time theready-made Eis-Mischung cremig beaten andto frost cooling.
Treshhold 50 There is also a unity, in the same time theready-made Eis-Mischung cremig beaten andto frost cooling.
Treshhold 1000 There are also a device, in the same time theready-made Eis-Mischung cremig beaten andto Minustemperaturen cooling.
Tabelle 10: Weitere Ubersetzungsbeispiele der modifizierten Systeme:hierarchisches System versus Phrasen-basiertes System
45
Im Unterschied zu den hierarchischen Systemen”ubergeneriert“ das Phrasen-
basierte System, wenn viele Synonyme integriert werden, und verschlechtert
die Ubersetzung deutlich, da “device” das gesuchte Referenzwort ist und in
allen hierarchischen Systemen korrekt ubersetzt worden ist.
Das syntaktische System hat die niedrigsten Werte erzielt. Die Ubersetzungen
der Beispielsatze sind allerdings qualitativ am hochwertigsten:
Modifikationen UbersetzungsbeispieleReferenz After the New Year the vast majority of dwellings
with non-market rent in the Czech Republic willbe subject to deregulation.
Original After the New Year is this deregulation the majo-rity of renting in the Czech Republic before, theirtenants so far no market-oriented rent pay.
Hochste Frequenz After the New Year is this deregulation the mostrenting in the Czech Republic before, their tenantsso far no market-oriented rent pay.
Alle Synonyme After the New Year is this deregulation the mostrenting in the Czech Republic before, their tenantsso far no market-oriented rent pay.
Treshhold 50 After the New Year is this deregulation of the mostrenting in the Czech Republic, before, whose ten-ants so far no market-oriented rent pay.
Treshhold 1000 After the New Year is this deregulation the mostrenting in the Czech Republic before, their tenantsso far no market-oriented rent pay.
Tabelle 11: Ubersetzungsbeispiele der modifizierten Systeme (syntaktischesSystem)
Durch die Generierungsgrammatik bleibt der Satzbau auch bei Verwendung
der Synonyme intakt. Wie beim hierarchischen System findet bei sehr vielen
Synonymen keine Ubergenerierung statt.
46
Modifikationen UbersetzungsbeispieleReferenz There is also a device that beats the finished
ice cream mixture to a creamy consistencywhile cooling it to negative temperatures.
Original It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andon Minustemperaturen cooling will.
Hochste Frequenz It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andon Minustemperaturen cooling will.
Alle Synonyme It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andto frost cooling will.
Treshhold 50 It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andto frost cooling will.
Treshhold 1000 It is also a device, in which the ready-madeEis-Mischung same time cremig beaten andon Minustemperaturen cooling will.
Tabelle 12: Weitere Ubersetzungsbeispiele der modifizierten Systeme(syntaktisches System)
47
5 Probleme
5.1 Linguistischer Hintergrund
Auf linguistischer Ebene gab es mehrere Probleme. Da keine Qualitatsstei-
gerung der Ubersetzungssysteme erfolgte, der Grund aber nicht in der ei-
gentlichen Integration der Synonyme lag, sondern in der Auswahl dieser, ist
anzunehmen, dass eine Methode gefunden werden kann, die Erfolg verspricht.
5.1.1 Phrasen versus Worter
Ein Problem, das im Laufe dieser Arbeit auftrat, war die Entscheidung, ob es
Sinn macht, Synonyme nur auf Wortbasis zu integrieren oder ganze Phrasen
miteinzubeziehen. Phrasen werden in MOSES bevorzugt behandelt, da das
gemeinsame Auftreten von Wortern die Richtigkeit der Ubersetzung erhoht.
Ersetzt man Worter in Phrasen mit Synonymen, so konnen verheerende Feh-
ler auftreten, die die ganze Satzsemantik zerstoren.
1 - Wort Ersetzung:
Beispiel: mathematische Ebene
Ubersetzung: mathematical level
Synonymisierung: mathematische Flache
Ubersetzung (korrekt): mathematical surface
Ubersetzung (real): mathematical level
2 - Wort Ersetzung:
Beispiel: weiche Decke
Ubersetzung: soft blanket
Synonymisierung: friedliche Zimmerdecke
Ubersetzung (korrekt): peaceful ceiling
Ubersetzung (real): soft blanket
48
Auf Grund dieser Fehler scheint es sinnvoll, Synonyme nur auf Wortbasis zu
ersetzen.
Eine Moglichkeit, feststehende, meist umgangssprachliche Phrasen zu inte-
grieren ware denkbar, doch ist sie wegen des sehr geringen Vorkommens in
geschriebenen Texten zu vernachlassigen. Außerdem sollten umgangssprach-
liche Phrasen ebenfalls umgangssprachlich ubersetzt werden, da die absicht-
liche Paraphrasierung eines Wortes meist gewollt ist und die Satzsemantik
beeinflussen soll. So soll”vom Fleisch gefallen“ nicht einfach mit
”abgema-
gert“ (eng: “emaciated”) ubersetzt werden, sondern mit der verstarkten
Bedeutung “to have lost a lot of weight”.
5.1.2 Umgangs- und fachsprachliche Ausdrucke
Ein weiteres Problem waren umgangs- und fachsprachliche Ausdrucke. Auf
Grund der niedrigen Corpusfrequenzen und der so gut wie immer vorkom-
menden Synonyme werden diese Ausdrucke nicht spezifisch genug ubersetzt,
sondern mit einem viel allgemeineren Synonym. Fachausdrucke werden ubli-
cherweise ubernommen, da keine Ubersetzung notwendig ist. Wahrend ein
Mensch ein Synonym oft besser versteht, so wird es in der Analyse durch die
Bewertungsalgorithmen in der maschinellen Sprachverarbeitung als falsch er-
kannt. Es ist vollig zulassig”Alopezie“ mit “hair loss” statt mit “alopecia”
zu ubersetzen, jedoch wird dies unter Umstanden als Fehler bei der automa-
tischen Auswertung der Daten gewertet.
5.2 Technischer Hintergrund
Die technische Herausforderung lag vor allem darin, die zu modifizierenden
Systeme nicht zu stark zu verlangsamen und verschiedene Datenquellen und
-formate so zu verarbeiten, dass eine sinnvolle Integration in die verschie-
denen Systeme moglich ist. Gute Ubersetzungssysteme bestehen aus sehr
großen Daten. Das Einfugen der Synonyme lauft mit linearer Geschwindig-
keit und dauert in etwa 2,5% der Zeit, die das Training beansprucht. Das
darauffolgende Tuning ist nicht signifikant langsamer.
Durch das benutzte Europarl-v7-Corpus wurden Phrasen- und Regeltabellen
49
in der Großenordnung von 2.1GB bis 15.3GB generiert.
Tabellen-Dateien GroßePhrasen-basiert
Original 91999679 lines 11.12GBHochste Frequenz 96890211 lines 11.97GB
Alle Synonyme 99085127 lines 12.19GBTreshhold 50 98365352 lines 12.12GB
Treshhold 1000 96920175 lines 11.98GBhierarchisch
Original 115037846 lines 15.25GBHochste Frequenz 138540437 lines 18.59GB
Alle Synonyme 143194838 lines 19.17GBTreshhold 50 141611056 lines 18.98GB
Treshhold 1000 138452722 lines 18.58GBSyntax-basiert
Original 17015895 lines 2.07GBHochste Frequenz 20077336 lines 2.49GB
Alle Synonyme 20748334 lines 2.56GBTreshhold 50 20550013 lines 2.54GB
Treshhold 1000 19782611 lines 2.45GB
Tabelle 13: Tabellengroßen
5.2.1 Bewertungsalgorithmen
Jeder Bewertungsalgorithmus beruht darauf, eine Ubersetzung mit einer Re-
ferenz zu vergleichen. Da in dieser Arbeit nur eine Referenz vorhanden war
(Testset: News2011), bedeutet jede abweichende Ubersetzung eines Satzes
zwingend einen Fehler. Nach Durchsicht der ubersetzten Texte sind einige
Ubersetzungen der modifizierten Systeme durchaus denkbar, manchmal sieht
der ganze Satzbau besser aus als der der unveranderten Ubersetzung, jedoch
konnen diese vom Menschen uberpruften Unterschiede und Urteile nicht in
den Bewertungsalgorithmen berucksichtigt werden.
50
5.2.2 Erhohung der Varianz
In MOSES (und jedem anderen statistischem Ubersetzungssystem) bedeutet
eine große Phrasen- oder Regeltabelle nicht zwingend eine hohere Qualitat.
Die Inhalte der Phrasen- und Regeltabellen wurden bei den 3 bearbeiteten
Systemen im Schnitt zwischen 5% und 15% großer. Anhand der OOV-Raten
und der BLEU- und TER-Werte ist aber zu sehen, dass dies weder mit den
fehlenden Wortern, noch mit einem Qualitatszuwachs korreliert. Das zu star-
ke Eingreifen in die Phrasen- und Regeltabellen macht den Vorteil der hoher-
en Abdeckung somit zunichte. Ohne vorige Einsicht in den zu ubersetzenden
Text ist es schwierig, ein geeignetes”Synonymfenster“zu finden.
5.2.3 Tuning
Das Tuning stellt einen weiteren Storfaktor dar. Es ist nicht garantiert, auch
nach mehrmaligem Tuning die besten Gewichtungen gefunden zu haben. Ge-
rade bei sehr großen Phrasen- oder Regeltabellen ist es oft schwierig, die
besten Gewichte zu finden. Durch das Einfugen von Synonymen wird dieser
Prozess deutlich erschwert und es konnte haufig mit den getuneten Gewich-
tungen des Originalsystems bessere Ergebnisse erzielt werden als mit den”be-
sten“ Gewichtungen der modifizierten Systeme. Dies lasst darauf schließen,
dass die Uberfullung der Tabellen dazu fuhrt, dass der Tuningalgorithmus
nicht mehr optimal arbeiten kann.
51
6 Fazit
6.1 Zusammenfassung
Abbildung 11: BLEU-Scores
Die Integration von Synonymen in maschinelle Ubersetzungssysteme funk-
tionierte bei allen getesteten Systemen, brachte jedoch keine Verbesserun-
gen, sondern verschlechterte das entsprechende System. Das Vokabular jedes
Systems wurde erfolgreich erweitert, was zwar half, unbekannte Worter zu
erkennen, jedoch auch dazu fuhrte, dass manche Worter mit zu vielen Uber-
setzungsmoglichkeiten ausgestattet wurden. Dies erhohte die Varianz in eini-
gen Falle so stark, dass zuvor”erlernte“ Ubersetzungen nicht mehr an erster
52
Stelle standen und Worter, die im Originalsystem korrekt ubersetzt wurden,
”falsch“ ubersetzt wurden. In vielen Fallen war die Ubersetzung zwar noch
semantisch korrekt, entsprach aber nicht mehr der wortlichen Ubersetzung.
In einigen Fallen, vor allem bei der Integration von allen Synonymen, entstan-
den auch semantisch ungleiche Ubersetzungen. Die Einfuhrung eines sechsten
Gewichts und die Verankerung dieses Gewichts mit den Originalwortern, Syn-
onymen und Phrasen beeinflussten die Qualitat weder negativ noch positiv.
Am vielversprechendsten scheint die Integration in syntaktische Systeme.
Zwar haben das hierarchische und Phrasen-basierte System weniger Qua-
litatsverlust als das syntaktische System erlitten, die Qualitatsprufung zeigte
aber, dass durch die starke Regelbegrenzung der Satzbau beibehalten wird
und ein Synonymaustausch auf Wortbasis zu sinnvollen Ergebnissen fuhrt.
6.2 Ausblick und Weiterentwicklung
Die Idee hinter der Integration von Synonymen hat zumindest dahingehend
funktioniert, das Vokabular nachhaltig erhohen zu konnen. Es stellt sich le-
diglich die Frage, ob es Sinn macht, Synonyme auf großer Basis zu integrieren
oder eventuell kontextueller vorzugehen. Die benutzten Synonymauswahlme-
thoden haben gezeigt, dass eine breitflachige Auswahl zu viele Storungen des
Originalsystems verursacht, was darauf schließen lasst, dass eine weniger dra-
stische Methode erfolgversprechender ist.
Durch diese Erkenntnis wurde ein weiteres Konzept verfolgt und getestet:
‘‘On-demand” Synonymloading
Hierbei wird die komplette Synonymquelle als zweite Datenbank gesehen,
die vor dem Ubersetzen als Hilfe herbeigezogen wird, wenn Worter nicht
ubersetzt werden konnen. Die vom Training generierten Worter und Phra-
sen werden somit deutlich weniger beeinflusst, die Vorteile der Vergroßerung
des Vokabulars sind dennoch vorhanden.
53
Phrasen/Regeltabelle BLEU TERTextOOV
VocabOOV
Phrasen-basiertes SystemOriginal 18.67 0.6414 0.2170 0.0117
Modifiziert (hochste Frequenz) 17.68 0.6513 0.2163 0.0116
Modifiziert (alle Synonyme) 17.64 0.6485 0.2150 0.0114
Modifiziert (Treshhold 50) 17.67 0.6483 0.2154 0.0115
Modifiziert (Treshhold 1000) 17.74 0.6470 0.2168 0.0116
On-demand 18.65 0.6373 0.2150 0.0114hierarchisches System
Original 18.19 0.6473 0.2163 0.0116
Modifiziert (hochste Frequenz) 17.96 0.6515 0.2156 0.0115
Modifiziert (alle Synonyme) 17.94 0.6522 0.2143 0.0113
Modifiziert (Treshhold 50) 17.94 0.6522 0.2147 0.0114
Modifiziert (Treshhold 1000) 17.94 0.6520 0.2161 0.0115
On-demand 18.45 0.6437 0.2143 0.0113syntaktisches System
Original 16.38 0.6634 0.2168 0.0116
Modifiziert (hochste Frequenz) 15.53 0.6804 0.2160 0.0116
Modifiziert (alle Synonyme) 15.52 0.6805 0.2149 0.0113
Modifiziert (Treshhold 50) 15.49 0.6857 0.2153 0.0114
Modifiziert (Treshhold 1000) 15.53 0.6805 0.2165 0.0116
On-demand 16.39 0.6640 0.2149 0.0113
Tabelle 14: Ergebnisse fur on-demand loading
Systeme On-demand
Phrasen-basiert 0.23Hierarchisch 0.007
Syntax-basiert 0.071
Tabelle 15: Statistische Signifikanz (Werte <= 0.05 bedeuten Signifikanz)On-demand versus Originalsysteme
54
Abbildung 12: BLEU-Scores (mit on-demand)
Die “on-demand” Modifikation konnte uberzeugen und lieferte bessere Er-
gebnisse als das unveranderte Originalsystem. Es konnten mit Hilfe der Syn-
onyme unbekannte Worte teilweise korrekt ubersetzt werden. Naturlich ent-
standen auch hier Fehler, jedoch deutlich weniger.
Allerdings muss diese Modifikation vor jedem Ubersetzen durchgefuhrt wer-
den und das entstandene modifizierte System ist somit nicht allgemein ein-
setzbar. Das Tuningergebnis des Systems mit sechs Werten ohne weitere
Anderungen kann ubernommen werden, da die Synonymanzahl der hinzu-
gefugten Synonyme viel geringer ist als wenn mit breitflachigem Einfugen
gearbeitet wird.
“On-demand” fallt daher eher unter ein zweites, kontextuelles Tuning und
55
Modifikationen UbersetzungsbeispieleOriginal The same applies called he Schamane from
the neighbouring Guinea to aid, which ac-companied by police, soldiers and the Leib-garde of Presidents indiscriminately ...
On-demand The same applies called he Schamane fromthe neighbouring Guinea to aid, which ac-companied by police, soldiers and the presi-dential guards of Presidents indiscrimina-tely ...
Original In a Wochenendhaus ...On-demand In a summer cottage ...
SynonymfehlerOriginal This is the Casa Batllo of the Catalonian ar-
chitect, Antonio Gaudi in Barcelona.On-demand This is the Casa Batllo of the Catalonian ar-
chitect, Antonio pleasure in Barcelona.
Tabelle 16: Ubersetzungsbeispiele des modifizierten Systems (On-demand)
nicht unter ein weiteres Training des Systems.
Fur den Erfolg der Integration der Synonyme in die maschinelle Ubersetzung
ist es sinnvoller an einer großeren Synonymquelle zu arbeiten als zu versuchen
eine geeignete Methode zu finden diese”blind“ zu integrieren.
56
7 Danksagung
An dieser Stelle mochte ich mich bei jedem bedanken, der mich bei jeglichen
Problemen unterstutzt hat und dessen fachliche Meinung zum Gelingen die-
ser Diplomarbeit beigetragen hat.
Besonderes danken mochte ich Andreas Maletti fur die hervorragende Be-
treuung dieser Arbeit und die Hilfe bei jeglichen Fragen, Daniel Quernheim,
Nina Seemann und dem gesamten MOSES Support Team fur Ihre Hilfe und
Unterstuzung bei Problemen mit MOSES, Benjamin David fur seine Pro-
grammierratschlage und Helmut Schmid fur die Tipps im Umgang mit bitpar
und SMOR.
Außerdem danke ich meiner Familie und Sandra Marci fur die dauerhafte
Unterstutzung und das Probelesen.
57
8 Anhang
Pythonskripte (auf CD inklusive Readmes):
- fur die Bearbeitung der Phrasen- und Regeltabellen
- Normalisierung der Texte, XML-Wrapper, OOV-Rates
- manuelle Thesaurusabfrage
58
Literaturverzeichnis
[1] Annual Meeting of the Association for Computational Lin-
guistics (ACL): Newstest 2008/2011. http://www.statmt.org/
wmt12/dev.tgz. Version: 2012. – abgerufen am 21.11.2013
[2] Annual Meeting of the Association for Computational Lin-
guistics (ACL): Workshop for Machine Translation 2013. http:
//www.statmt.org/wmt13/. Version: 2013. – abgerufen am 14.11.2013
[3] Bar, Kfir ; Dershowitz, Nachum: Using synonyms for Arabic-to-
English example-based translation. In: Association for Machine Trans-
lation in the Americas (AMTA), 2010
[4] Baroni, Marco ; Kilgarriff, Adam: Large linguistically-processed
Web corpora for multiple languages. In: Annual Meeting of the Asso-
ciation for Computational Linguistics (ACL), 2006
[5] Blessing, Andre: Extrahiertes, deutsches Wikipedia (Version:
10.04.2011). http://www.ukp.tu-darmstadt.de/software/jwpl. –
abgerufen am 26.01.2014
[6] Blume, Moritz: Expectation Maximization: A Gentle Introduction.
Technische Universitat Munchen, 2008. http://campar.in.tum.de/
twiki/pub/Main/MoritzBlume/EMGaussianMix.pdf
[7] Chiang, David: Hierarchical Phrase-Based Translation. In: Com-
putational Linguistics 33 (2007), Nr. 2. http://www.aclweb.org/
anthology-new/J/J07/J07-2003.pdf
[8] Faaß, Gertrud ; Eckart, Kerstin: A Corpus of Parsable Sentences
from the Web. In: International Conference of the German Society for
Computational Linguistics and Language Technology (GSCL), 2013
[9] Federico, M. ; Bertoldi, N. ; Cettolo, M.: IRSTLM: an Open
Source Toolkit for Handling Large Scale Language Models. In: Procee-
dings of Interspeech, 2008
59
[10] Federico, Marcello: IRST LM. http://sourceforge.net/projects/
irstlm/. – abgerufen am 03.10.2013
[11] Kneser, Reinhard ; Ney, Hermann: Improved backing-off for m-gram
language modeling. In: Acoustics, Speech, and Signal Processing (ICAS-
SP), 1995
[12] Koehn, Philipp: Statistical Machine Translation. Cambridge University
Press, 2010
[13] In: Koehn, Philipp: Statistical Machine Translation: Kapitel 11 Tree-
Based Models. Cambridge University Press, 2010
[14] In: Koehn, Philipp: Statistical Machine Translation: Kapitel 4 Word-
Based Models. Cambridge University Press, 2010
[15] In: Koehn, Philipp: Statistical Machine Translation: Kapitel 5 Phrase-
Based Models. Cambridge University Press, 2010
[16] Koehn, Philipp ; Axelrod, Amittai ; Mayne, Alexandra B. ;
Callison-Burch, Chris ; Osborne, Miles ; Talbot, David: Edinbur-
gh System Description for the 2005 IWSLT Speech Translation Evaluati-
on / International Workshop on Spoken Language Translation (IWSLT).
2005. – Forschungsbericht
[17] Koehn, Philipp ; Hoang, Hieu ; Birch, Alexandra ; Callison-
Burch, Chris ; Federico, Marcello ; Bertoldi, Nicola ; Cowan,
Brooke ; Shen, Wade ; Moran, Christine ; Zens, Richard ; Dyer,
Chris ; Bojar, Ondrej ; Constantin, Alexandra ; Herbst, Evan: Mo-
ses: Open Source Toolkit for Statistical Machine Translation. In: Annual
Meeting of the Association for Computational Linguistics (ACL), 2007
[18] Koehn, Phillip: Europarl: A Parallel Corpus for Statistical Machine
Translation. In: Machine Translation Summit X, 2005
[19] Koehn, Phillipp: Statistical Significance Tests for Machine Translation
Evaluation. In: Annual Meeting of the Association for Computational
Linguistics (ACL), 2004
60
[20] Naber, Daniel: OpenThesaurus. http://www.openthesaurus.de/
about/download. – abgerufen am 18.02.2014
[21] Naber, Daniel: OpenThesaurus: Building a Thesaurus with a
Web Community, 2004. http://www.openthesaurus.de/download/
openthesaurus.pdf
[22] Naber, Daniel: OpenThesaurus. Ein offenes deutsches Wortnetz. In:
Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen:
Beitrage zur GLDV-Tagung, Peter-Lang-Verlag, 2005, S. 422-433
[23] Nanba, Hidetsugu ; Takezawa, Toshiyuki ; Uchiyama, Kiyoko ; Ai-
zawa, Akiko: Automatic Translation of Scholarly Terms into Patent
Terms Using Synonym Extraction Techniques. In: The International
Conference on Language Resources and Evaluation (LREC), 2012
[24] Och, Franz J.: Minimum Error Rate Training in Statistical Machine
Translation. In: Annual Meeting of the Association for Computational
Linguistics (ACL), 2003
[25] Och, Franz J. ; Ney, Hermann: A Systematic Comparison of Various
Statistical Alignment Models. In: Computational Linguistics 29 (2003),
Nr. 1, S. 19–51
[26] Och, Franz J. ; Ney, Hermann: The Alignment Template Approach
to Statistical Machine Translation. In: Computational Linguistics 30
(2004), Nr. 4, S. 417–449
[27] Papineni, Kishore ; Roukos, Salim ; Ward, Todd ; Zhu, Wei-Jing:
Bleu: a Method for Automatic Evaluation of Machine Translation.
In: Annual Meeting of the Association for Computational Linguistics
(ACL), 2002
[28] Petrov, Slav ; Barrett, Leon ; Thibaux, Romain ; Klein, Dan:
Learning Accurate, Compact, and Interpretable Tree Annotation. In:
COLING-ACL, 2006
61
[29] Petrov, Slav ; Klein, Dan: Improved Inference for Unlexicalized Par-
sing. In: HLT-NAACL, 2007
[30] Project Syndicate: News Commentary by Project Syndicate. http:
//www.statmt.org/wmt13/training-parallel-nc-v8.tgz. – abgeru-
fen am 16.11.2013
[31] Rosen, Victoria ; Meurer, Paul ; Smed, Koenraad de: Constructing
a parsed corpus with a large LFG grammar. In: Proceedings of LFG’05,
CSLI Publications, 2005
[32] Schmid, Helmut ; Fitschen, Arne ; Heid, Ulrich: SMOR: A German
Computational Morphology Covering Derivation, Composition and In-
flection. In: The International Conference on Language Resources and
Evaluation (LREC), 2004
[33] Schutze, Hinrich ; Manning, Christopher D.: Foundations of statisti-
cal natural language processing. MIT Press. Cambridge, 1999
[34] Snover, Matthew ; Madnani, Nitin ; Dorr, Bonnie ; Schwartz,
Richard: Fluency, Adequacy, or HTER? Exploring Different Human
Judgments with a Tunable MT Metric. In: Workshop on Statistical
Machine Translation (WMT), 2009
[35] Stolcke, Andreas ; Zheng, Jing ; Wang, Wen ; Abrash, Victor:
SRILM at Sixteen: Update and Outlook. In: Microsoft Speech Labs,
2011
[36] The Berkeley Natural Language Processing Group: Berkeley
Parser. https://code.google.com/p/berkeleyparser/. – abgerufen
am 04.03.2014
62