28
Distributed Language Translation Referat im Kurs „Übersetzung durch Mensch und Maschine“ an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Embed Size (px)

Citation preview

Page 1: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Distributed Language Translation

Referat im Kurs „Übersetzung durch Mensch und Maschine“ an der Universität Bremen

Referentin: Carolin Hinz

15. Januar 2003

Page 2: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Gliederung

• Allgemeines

• Entwicklungsgeschichte

• linguistische Grundlagen

• Übersetzungsprozess

• Zusammenfassung

• Literatur

Page 3: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Allgemeines

• Entwickelt von der Softwarefirma BSO (Buro voor Systemontwikkeling) in Utrecht/Holland

• Interlinguasystem

• linguistische Grundlagen: Dependenzgrammatik und Esperanto als Interlingua

• Software wurde in Prolog entwickelt

• System lief auf Sun-Rechnern unter dem Betriebssystem Unix

• modulares System

• Übersetzungsprozess ist auf mehrere Terminal verteilt: „distributed“

Page 4: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Entwicklungsgeschichte

1979: Beginn erster Untersuchungen durch A.P.M. (Toon) Witkam1983: Veröffentlichung einer Studie zur Durchführbarkeit1985: 6-Jahresvertrag mit dem niederländischen Finanzministerium Ziel: Erstellung eines Prototyps bis 1987 und einer

marktfähigen Version bis 19931987: Vorstellung des ersten Prototyps:

Übersetzung von einer vereinfachter Form des Englischen (Simplified English) in Französisch

1991: Trotz langfristiger Planungen plötzliches Einstellen des Projektes

Page 5: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen 1: Dependenzgrammatik

Dependenz = Abhängigkeitsverhältnis zwischen fakultativen und obligatorischen Bestandteilen eines SatzesKopf = obligatorischer Bestandteil einer KonstituenteDependens = fakultativer oder abhängiger BestandteilVerbzentrierung: Man nimmt an, dass alle Satzglieder vom finiten Verb desselben Satzes unmittelbar oder mittelbar abhängen

Page 6: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen I: Dependenzgrammatik

Wenn ein Kopf festlegt, welche Wortform sein Dependens haben darf, dann ist dies ein Indiz dafür, dass der Kopf das Dependens regiert. Diese Wirkung nennt man Rektion. Das regierende Element wird oft als Regens, das regierte als Rectum bezeichnet.

Metataxis:kontrastive Syntaxregeln, um einen Dependenzbaum einer Sprache in einen equivalenten Baum in einer anderen Sprache zu transformieren

Page 7: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen II: Esperanto

Plansprache, die zum Einsatz als internationale Verkehrssprache von Ludovic Lazar Zamenhof 1887 konstruiert wurde

Esperantobewegung große Sprachgemeinschaftdurch verbreiteten Gebrauch über längere Zeit sprachliche Entwicklung und Innovation

Vokabular stammt aus europäischen Sprachen Vorwurf des Eurozentrismus

Page 8: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen II: Esperanto

Esperanto gilt als eine leicht zu erlernende Sprache. Dies folgt vor allem aus der vollständigen Regelhaftigkeit der Sprache. Grammatische Regeln haben keine Ausnahmen und die agglutinierende morphologische Struktur erleichtert den Wortschatzerwerb gegenüber anderen Sprachen.

Page 9: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen II: Esperanto

1. MorphologieEsperanto ist eine agglutinierende Sprache, d. h. jedes grammatische Merkmal wird durch ein Morphem dargestellt, das an einen Stamm angehängt wird. Jedes Morphem ist unveränderlich. Es gibt keine Allomorphie: Jedes Morphem hat genau eine bestimmte Bedeutung.Komposita sind hinsichtlich ihrer Bedeutung transparent, da sich diese aus der Bedeutung der einzelnen Bestandteile ergibt.Die Wörter des Esperanto werden aus Wurzeln und Affixen zusammengesetzt. Es gibt auch Komposita, die aus zusammengefügten Wörtern oder zusammengefügten Wurzeln bestehen.

Page 10: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen II: Esperanto

2. WortartenMan unterscheidet vier lexikalische Hauptkategorien: Nomina, Adjektive, Adverbien und Verben. Jede dieser Wortarten wird durch Anhängen des entsprechenden Suffixes an eine Wurzel gebildet.Bsp.: Wurzel “telefon-“

telefon -o sonor -as"Telefon-" -Subst. "Klang-" -Präs.ein Telefon klingelt

Page 11: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen II: Esperanto

mi telefon -as1.Sg. "Telefon-" -Präs.ich telefoniere

telefon -a -j -n mesagx -o -j -n"Telefon-" -Adj. -Pl. -dir.Obj. "Nachricht" -Subst. -Pl. -dir.Obj.telefonische Nachrichten

la instru -ist -o parol -os telefon -e kun sxiDef"Lehr-"Tätigkeit-Subst."Sprach-"Fut. "Telefon-" -Adv. mit 3.Sg.Fem. der Lehrer wird telefonisch mit ihr sprechen

Page 12: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen II: Esperanto

3. WortstellungDie normale Wortstellung des Esperanto ist SVO. Determinatoren und Adjektive stehen gewöhnlich vor dem Nomen. Des Weiteren ist die Sprache präpositional. D.h. Adpositionen stehen vor dem Kopf.Beispiel: La instruistino parolas telefone kun li.

Page 13: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Linguistische Grundlagen II: Esperanto

S

NP VP

Det N V AdvP PP

Adv P NP

Pron

La instruistino parolas telefone kun li. Die Lehrerin spricht telefonisch mit ihm.

Page 14: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Ausgangssatz: He watches the girl with the telescope.

Schritt 1: Syntaktische Analyse der SL (Source Language) durch einen Parser (in DLT: ATN „Augmented Transition Network“)Zugriff auf SL-Syntaxregeln und SL-WörterbuchErgebnis: Baumstruktur; bei syntaktischen Ambiguitäten Generierung von zwei oder mehr Bäumen

Page 15: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

erster Baum: watch <past>

E-Subj E-Obj E-Circ he girl with

E-Det E-Parg

the telescope

E-Det

the

Page 16: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

zweiter Baum:

watch<past>

E-Subj E-Obj

he girl

E-Det E-Atr2

the with

E-Parg

telescope

E-Det

the

Page 17: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Legende der Dependenzlabel: Subj = SubjektObj = ObjektCirc = CircumstantialAtr2 = Postnominal AttributeDet = DeterminerParg = Prepositional ArgumentE = Englisch

Page 18: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Schritt 2:SL-IL(Intermediate Language)-Metataxis Wort-für-Wort-Übersetzung; Ersetzen der Englischen Dependenzlabel durch äquivalente in Esperanto

Zugriff auf Metataxisregeln und zweisprachiges Wörterbuch (SL-IL)

Ergebnis: mehrere IL-Bäumein unserem Beispiel: strukturelle Ambiguitäten; lexikalische würden an einem Baum dargestellt werden

Page 19: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

erster Baum: Li observis la knabinon per la telescopo.

observis

Subj Obj Circ li knabinon per Det Parg la telescopo Det la

Page 20: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

zweiter Baum: Li observis la knabinon kun la telescopo.

observis

Subj Obj

li knabinon

Det Atr2

la kun

Parg

telescopo

Det la

Page 21: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Schritt 3: Semantische Wortwahl durch SWESIL SWESIL = separates Modul (Semantic Word Expert System in the Intermediate Language)Macht gewissermaßen Gebrauch von Weltwissen – bezieht dieses aus ”Lexical Knowledge Bank” (LKB)LKB: Sammlung von Wortpaaren mit jeweils einem syntakt. Bezugspunkt in IL Content word + relator = WortpaarBildung aller möglichen Kombinationen aus Baum SWESIL sucht in LKB nach identischen oder ähnlichen Paaren Bewertung mit Zahlen höchster Wert am wahrscheinlichsten wird in Übersetzung übernommen

Page 22: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Schritt 4: Interaktiver DialogWenn Ambiguitäten durch Schritt 3 nicht aufgelöst werden konnten, wird ein Dialog initiiert.Computer gibt mehrere Auswahlmöglichkeiten in SL Nutzer wählt beste ausZugriff auf Nutzerkenntnisse (oft: Nutzer = Autor des Textes)

Beispiel:

with the telescope goes with:1. the girl

2. watched

Nutzer entschließt sich für die zweite Variante

Page 23: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Ergebnis: nur noch ein IL-Baum

observis

Subj Obj Circ

li knabinon per Det Parg

la telescopo

Det

la

Page 24: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Schritt 5 : IL-LinearisierungDurch Zugriff auf Linearisierungsregeln wird der Ausgangssatz in der korrekten Wortstellung im Esperanto repräsentiert: Li observis la knabinon per la telescopo.

Schritt 6:Alle Sätze, die in den vorhergehenden Schritten produziert wurden, werden noch einmal durch einen Parser auf ihre Wohlgeformtheit überprüft.

Der akzeptierte Esperantotext wird an den Zielterminal geschickt.

Page 25: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Schritt 7 und folgende:Bei der Übersetzung IL-TL(Target Language) werden äquivalent alle Schritte wie bei SL-IL durchlaufen.

Das Ergebnis ist ein linearisierter zielsprachiger Text bzw. Satz.

Beispiel: Il regarde la fille avec le telescope.

Page 26: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Übersetzungsprozess

Terminal 1:SL-Analyse SL-Il-Metataxis Semantische Wortwahl durch SWESIL Interaktiver Dialog IL-Linearisierung Überprüfung der Korrektheit

Übertragung an den Zielterminal

Terminal 2:IL-Analyse IL-TL-Metataxis Semantische Wortwahl durch SWESIL TL-Linerarisierung(kein Dialog; kein Post-Editing vorgesehen)

Page 27: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

ZusammenfassungDas Ziel des DLT-Projektes war die Entwicklung eines multilingualen qualitativ hochwertigem Übersetzungsprozess mit Esperanto als Interlingua.Während der Arbeit an dem Projekt wurde jedoch die Erfahrung gemacht, dass Esperanto (mittlerweile) genauso lexikalisch und strukturell ambig ist wie andere natürliche Sprachen.Eine qualitativ hochwertige Übersetzung hätte dadurch viel Zeit beansprucht ebenso die Weiterentwicklung dieses Projektes. Doch fanden sich dafür keine Interessenten und vor allem keine Geldgeber.Dies waren laut Toon Witkam die Gründe für das Scheitern: “In our ‚information society’ these days, speed is often considered more important than quality.”

Page 28: Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Literatur

• Maxwell, Dan: Distributed Language Translation: A Multilingual Project. Utrecht: BSO Research. Reproduced by The Indiana University Linguistics Club. Bloomington. 1990.

• Schubert, Klaus: Metataxis: Contrastive dependency syntax for machine translation. Dordrecht: Foris. 1987.

• Hutchins, W. John & Harold L. Somers: An introduction to Machine Translation. Academic Press: London. 1992. S. 197-311.

• Witkam, Toon: Why the DLT project had to be abandonned. (unveröffentlicht; persönlich per E-Mail erhalten)

• weitere Literatur stand zur Verfügung, wurde jedoch (noch) nicht berücksichtigt (Präsentation wird möglicherweise noch einmal überarbeitet)