Berufsverband für Dolmetschen und Übersetzen Neuronale

Neuronale Maschinelle Übersetzung und Post-Editing

Samuel Läubli

UNIVERSITAS Austria

Berufsverband für Dolmetschen und Übersetzen

Wien, 15. März 2019 / Graz, 18. März 2019

Über mich

seit 2016 Doktorand und Lehrbeauftragter

Universität Zürich

Partner, CTO

TextShuttle

2018 Research Intern

bis 2016 Sr. Computational Linguist

Autodesk

2014 MSc Artificial Intelligence

University of Edinburgh

2012 BA Computerlinguistik und Sprachtechnologie

Universität Zürich

Programm

1. Erreicht NMÜ die Qualität von professioneller Humanübersetzung?

2. Wie funktioniert NMÜ?

3. Wie kann ich NMÜ in der Berufspraxis nutzen?

NMÜ: Neuronale Maschinelle Übersetzung

ß = ssBitte verzeihen Sie, dass ich Ihnen heute Denkanstösse statt Denkanstöße gebe.

Erreicht NMÜ die Qualität von professioneller

Humanübersetzung?

Léon Dostert

Although he emphasized that it is not yet possible “to insert a Russian book at one end and come out with an English book at the other,” Doctor Dostert predicted that “five, perhaps three years hence, interlingual meaning conversion by electronic process in important functional areas of several languages may well be an accomplished fact.”

IBM-Pressemitteilung, 8. Januar 1954

The Michigan Technic 72:42, 1954

(via Google Books)

Herbert A. Simon

Machines will be capable, within

twenty years, of doing any work that

a man can do.

Simon, 1960, S. 38.

Maschinelle Übersetzung

Biological experiments, which were conducted on different cosmic LETATEL6NYX APPARATI, the astrophysical investigations of cosmic space and the flights of Soviet and also American KOSMONAVTOV with the sufficient convincingness showed, that the short-term orbital flights of below radiation belts of ground upon the absence of the increased solar activity in radiation in relation are safe.

ALPAC Report, 1966, S. 19, 23

● Acht Jahre Entwicklungszeit● Post-editing langsamer als Humanübersetzung● Post-editing teurer als Humanübersetzung

Georgetown-IBM, ~1962

Microsoft AI Blog, 14. März 2018

SDL-Pressemitteilung, 19. Juni 2018

Hassan et al., 2018

Bewertung von Maschineller Übersetzung

WMTBojar et al., 2017

MicrosoftHassan et al., 2018

Texte Zeitungsartikel Zeitungsartikel

Übersetzungen diverse Microsoft

Ursprüngliche Ausgangssprache

Chinesisch und Englisch Chinesisch und Englisch

Bewertende MT-Forscher, Crowd-Workers

Crowd-Workers

Bewertende sehen Ausgangssprache

nein ja

Bewertende sehen ganze Dokumente

nein nein

Evaluation des NMÜ-Systems von Microsoft

● Evaluation gemäss gängiger Praxis

● Bewertenden stellen keinen Unterschied zwischen NMÜ und professioneller Humanübersetzung fest.

● Mensch und Maschine seien folglich gleich gut («human parity»).

Hassan et al., 2018

Men hMas n

Was ist die gängige Evaluationspraxis?

● Blindtest: Herkunft der Übersetzung ist nicht ersichtlich

● Bewertung von Adäquatheit (mit Ausgangstext) und Flüssigkeit (ohne Ausgangstext)

● Bewertung durch Laien (Crowd-Workers)

● Bewertung von einzelnen Sätzen ohne Kontext

● Referenzübersetzungen sind sowohl übersetzte Originaltexte als auch

übersetzte Übersetzungen (Translationese)

Forschungsfrage:

Hat Microsofts Chinesisch-Englisch-System tatsächlich Parität mit professioneller Humanübersetzung erreicht?

Hypothesen:

● Professionelle Übersetzung ist besser als maschinelle Übersetzung

● Paritätsbefund aufgrund von Schwächen in der Evaluationspraxis, nicht aufgrund von gleicher Qualität

Untersuchung der Microsoft-Ergebnisse

● Blinde Fehlerkategorisierung (qualitative Analyse)

● Untersuchung der Evaluationspraxis:

● Einfluss von Bewertenden

● Einfluss von linguistischem Kontext

● Einfluss von Referenzübersetzungen

Untersuchung der Microsoft-Ergebnisse

Kategorisierung von Fehlern in einer maschinellen (MT

1) und zwei professionellen

Übersetzungen (HA

). Fehlerzahlen stehen für die Anzahl Sätze (von insgesamt N=150), in denen mindestens ein Fehler der entsprechenden Kategorie vorkommt. Wir geben ausserdem die Anzahl Sätze an, die mindestens einen Fehler irgendeiner Kategorie enthalten (Any), sowie die totale Anzahl zutreffender Fehlerkategorien in allen Sätzen (Total). Statistische Signifikanz gemäss Exaktem Test nach Fisher (zweiseitig) für jedes Übersetzungspaar.

Blinde Fehlerkategorisierung

● Beurteilung durch eine bilinguale Person (Englisch, Chinesisch)

● 150 Sätze in je drei Übersetzungen (eine maschinell, zwei professionell)

● Bewertung im Dokumentkontext

● Maschinelle Übersetzung enthält signifikant mehr:

● Falsche Wörter (semantisch, grammatikalisch)

● Weglassungen

● Falsch übersetzte Namen

● Wortstellungsfehler

Blinde Fehlerkategorisierung (Beispiele)

Bewertung von Maschineller Übersetzung

WMTBojar et al., 2017

MicrosoftHassan et al., 2018

UZH, CMU, DCULäubli et al., 2018, 2019

Texte Zeitungsartikel Zeitungsartikel Zeitungsartikel

Übersetzungen diverse Microsoft Microsoft

Ursprüngliche Ausgangssprache

Chinesisch und Englisch Chinesisch und Englisch Chinesisch und Englisch / Chinesisch / Englisch

Bewertende MT-Forscher, Crowd-Workers

Crowd-Workers Crowd-Workers / Professionelle Übersetzer

Bewertende sehen Ausgangssprache

nein ja ja / nein

Bewertende sehen ganze Dokumente

nein nein ja / nein

Bewertende

Hypothese:

Laien (MÜ-Forscher, Crowd-Workers) können maschinelle und professionelle Übersetzung schlechter auseinanderhalten als professionelle Übersetzer*innen.

Bewertende

● Professionelle Übersetzer*innen bewerten Mensch besser als Maschine

● Laien (MT-Forscher) sehen keinen Unterschied

Ränge und TrueSkill-Werte (je höher desto besser) von einer professionellen (H

A) und zwei maschinellen

Übersetzungen (MT1

) gemäss Bewertungen von professionellen Übersetzer*innen (Experts) und Laien (Non-experts). Ein Asterisk neben einer Übersetzung zeigt an, dass diese Übersetzung signifikant besser ist als diejenige im nächsttieferen Rang (p≤.05).

Linguistischer Kontext

Hypothese:

Die Präferenz für MÜ sinkt, wenn ganze Texte statt einzelne Sätze bewertet werden.

Hintergrund:

● Gewisse Fehler (v.a. hinsichtlich Kohärenz und Kohäsion) können nur auf Text- und nicht auf Satzebene erkannt werden.

● NMÜ kann (heute noch) keinen Kontext über Satzgrenzen hinaus berücksichtigen (mehr dazu später).

Members of the public who find their cars obstructed

by unfamiliar vehicles during their daily journeys can

use the “Twitter Move Car” feature to address this

distress when the driver of the unfamiliar vehicle

cannot be reached. On August 11, Xi'an traffic police

WeChat service number “Xi'an traffic police”

launched “WeChat mobile” service. With the launch

of the service, members of the public can tackle such

problems in their daily lives by using the “WeChat

Move” feature when an unfamiliar vehicle obstructs

the movement of their vehicle while the driver is not

at the scene. [...]

A citizen whose car is obstructed by vehicle and is

unable to contact the owner of the obstructing vehicle

can use the “WeChat Move the Car” function to

address the issue. The Xi'an Traffic Police WeChat

official account “Xi'an Jiaojing” released the “WeChat

Move the Car” service since August 11. Once the

service was released, a fellow citizen whose car was

obstructed by another vehicle and where the driver of

the vehicle was not present, the citizen could use the

“WeChat Move the Car” function to address the issue.

市民在日常出行中 ,发现爱车被陌生车辆阻碍了,在联系不上陌生车辆司机的情况下 ,可以使用"微信挪车"功能解决这一困扰。8月11日起,西安交警微信服务号"西安交警"推出"微信挪车"服务。这项服务推出后,日常生

活中,市民如遇陌生车辆在驾驶人不在现场的情况下阻碍自己车辆行驶时,就可通过使用"微信挪车"功能解决

此类问题。[...]

Adäqu it – Dok te

cannot be reached.

address the issue.

市民在日常出行中 ,发现爱车被陌生车辆阻碍了,在联系不上陌生车辆司机的情况下 ,可以使用"微信挪车"功能解决这一困扰。

Adäqu it – Sat ne

cannot be reached.

address the issue.

Flüs i k – Sat ne

at the scene. [...]

Flüs i k – Dok te

Adäquatheit

Flüssigkeit

Überblick

Satz Dokument

AdäquatheitMensch und Maschine gleich gut

Mensch besser

Flüssigkeit Mensch besser Mensch besser

Linguistischer Kontext

● Präferenz für MÜ sinkt, wenn auf Dokumentebene evaluiert wird:

● Adäquatheit: 49.5 % → 37.0 %

● Flüssigkeit: 31.7 % → 22.0 %

Pairwise-Ranking-Ergebnisse für maschinelle (MT1

) gegen professionelle Übersetzung (H

A), bewertet von professionellen Übersetzer*innen.

cannot be reached.

address the issue.

cannot be reached.

address the issue.

at the scene. [...]

市民在日常出行中 ,发现爱车被陌生车辆阻碍了,在联系不上陌生车辆司机的情况下 ,可以使用"微信挪车"功能解决这一困扰。8月11日起,西安交警微信服务号"西安交警"推出"微信挪车"服务。这项服务推出后,日常生

活中,市民如遇陌生车辆在驾驶人不在现场的情况下阻碍自己车辆行驶时,就可通过使用"微信挪车"功能解决

此类问题。[...]

Referenzübersetzungen

Hypothese:

Übersetzte Texte sind für MÜ-Systeme einfacher zu übersetzen als Originaltexte. MÜ-Systeme schneiden bei Ersteren darum besser ab.

Hintergrund:

● Übersetzte Texte sind simpler, expliziter, und normalisierter als ihre Originale (Laviosa, 1998). Dieses Phänomen wird als «translationese» bezeichnet.

● Beispiel: Verwendung einer einzigen Übersetzung für Synonyme eines Originaltexts.

Referenzübersetzungen

● Für aus dem Englischen übersetzte

Chinesische Ausgangstexte («translationese») stellen Bewertende keinen Unterschied zwischen maschineller und professioneller Übersetzung fest.

● Für chinesische Originaltexte

schneidet professionelle Übersetzung besser als MÜ ab.

Ränge und TrueSkill-Werte (je höher desto besser) von einer professionellen (H

A) und zwei maschinellen

Übersetzungen (MT1

) gemäss Bewertungen von zwei professionellen Übersetzer*innen und drei MT-Forscher*innen. Ein Asterisk neben einer Übersetzung zeigt an, dass diese Übersetzung signifikant besser ist als diejenige im nächsttieferen Rang (p≤.05).

Folgerungen

● MÜ erreicht noch nicht die Qualität von Humanübersetzung. Sie enthält signifikant mehr grammatikalisch oder semantisch falsche Wörter, Weglassungen, und Wortstellungsfehler.

● Präferenz für MÜ sinkt, wenn die Bewertung von professionellen Übersetzer*innen statt von Laien durchgeführt wird.

● Präferenz für MÜ sinkt, wenn auf Dokumentebene evaluiert wird.

● Präferenz für MÜ sinkt, wenn nur Übersetzungen von Originaltexten bewertet werden.

● Evaluationspraktiken für MÜ müssen überdacht werden.

Läubli et al., 2018, 2019

Ha ha!Why machines will never replace translators. (The Japanese saysnigenigenigenigenigenigenigenigen, which means nothing.)

Übersetzer*innen über MÜ in Sozialen Medien

Läubli und Orrego-Carmona, 2017

Yeah, who needs human translators anyway, right??

Facebook und LinkedIn150 Posts, manuell

Twitter13’150 Tweets, automatisch

● Aktiver Diskurs über MÜ in Sozialen Medien

● Häufige Themen sind

● Bekräftigung des Bedarfs an professionellen Übersetzer*innen

● Vertrauen/Misstrauen in die technologische Entwicklung

● Qualität

● Negative Kommentare überwiegen

● Verhältnis von positiven zu negativen Tweets beträgt 3 : 1

● In Tweets, die MÜ mit professioneller Übersetzung in Verbindung bringen, beträgt das

Verhältnis 5 : 1

Paritätsdiskussion: Persönliches Fazit

● Wir sollten aufhören, übereinander zu lachen

● MÜ ist nicht perfekt

● Qualität von professioneller Humanübersetzung ist noch nicht erreicht

● Evaluationspraktiken müssen überdacht werden (Dokument- vs. Satzebene)

● MÜ ist nicht nutzlos

● Qualität hat sich in den letzten Jahren stark verbessert

● Einsatz erhöht Produktivität auch in Kombination mit “herkömmlicher”

Übersetzungstechnologie (Translation Memories, Termbases, …) markant

● Zukunft liegt im Zusammenspiel von Mensch und Maschine

Wie funktioniert NMÜ?

Maschinelle Übersetzung: Methoden

Methode Anfänge Prinzip Stärken Schwächen

Regeln Späte 1940er-Jahre

Menschen programmieren linguistisch motivierte Übersetzungsregeln.

Kontrolle Robustheit, Flüssigkeit, Adäquatheit

Statistik Späte 1980er-Jahre

Maschinen lernen Übersetzungsregeln mittels durch Menschen definierte statistische Merkmale von Sprache.

Robustheit Kontrolle, Flüssigkeit, Adäquatheit

Neuronale Netze Frühe 2012er-Jahre

Maschinen lernen Übersetzungsregeln mittels durch Menschen definierte Netz-Architektur.

Robustheit, Flüssigkeit

Kontrolle, Adäquatheit?

AusgangstextOne thing is certain: these new provisions will have a negative impact on voter turn-out.

2013 – Statistische Maschinelle Übersetzung (SMÜ)Eines ist sicher: Diese neuen Bestimmungen, die sich negativ auf die Wahlbeteiligung.

2019 – Neuronale Maschinelle Übersetzung (NMÜ)Eines ist sicher: Diese neuen Bestimmungen werden sich negativ auf die Wahlbeteiligung auswirken.

Neuronale vs. Statistische MÜ

Fallstudie von Bentivogli et al. (2016) von Englisch nach Deutsch:

● Geringerer Post-Editing-Aufwand (–26%)● Weniger morphologische Fehler (–19%)● Weniger lexikalische Fehler (–17%)● Weniger Wortstellungsfehler (–50%)

Ja.NMÜ ist besser als Vorgängertechnologie.

Aber warum?

Warnung: Vereinfachte Darstellung

Drei Gründe: Warum ist NMÜ besser als SMÜ?

1. Wortähnlichkeiten

2. Ganze Sätze

3. Komplexe Abhängigkeiten

Grund 1: Wortähnlichkeiten

NMÜ-Systeme können Bedeutungsähnlichkeiten von Wörtern berücksichtigen.

Wortrepräsentationen

● Maschinelle Lernverfahren arbeiten mit Zahlen, nicht mit Texten.

● Texte werden darum in Zahlen umgewandelt.

Wort a but can I resist an temptation everything except …

Diskrete Repräsentation

1 2 3 4 5 6 7 8 9 …

ContinuousRepresentation

1.05 3.16 2.13 0.16 2.98 1.36 7.89 8.12 3.26 …

Numerische Repräsentation von Wörtern

Wort a but can I resist an temptation everything except …

Diskrete Repräsentation

1 2 3 4 5 6 7 8 9 …

StetigeRepräsentation

1.05 3.21 2.13 0.16 2.98 1.36 7.89 8.12 3.26 …

Numerische Repräsentation von Wörtern

Mikolovs (2013) Skip-Gram-Modell,illustriert von Rong (2014)

resist

except

[3.23, 4.12, …, 1.12]

Learning continuous representations of words

ähnlichenumerische

Repräsentation

I can resist everything except temptation

I can resist everything but temptation

4 3 5 8 9 7

4 3 5 8 2 7

0.16 2.13 2.98 8.12 3.26 7.89

0.16 2.13 2.98 8.12 3.21 7.89

ähnliche Wörter

unterschiedliche numerische

Repräsentation

Wie «sieht» ein NMÜ-System einen Eingabesatz?

Grund 2: Ganze Sätze

NMÜ-Systeme berücksichtigen immer den ganzen Satzstatt Teilsätze (N-Gramme).

Generierung eines Ausgabesatzes

Sowohl in Statistischer als auch Neuronaler MÜ werden Sätze schrittweise aufgebaut, und zwar

● von links nach rechts,

● Wort für Wort.

SMT NMT

Verwendung einesN-Gramm-Sprachmodells

Verwendung eines Neuronalen Netzes

Selbstverständlich erwarten wir , als wir unser Betätigungsfeld im Rahmen der Kampagne zu geben .

N-Gram-Sprachmodell (n=3)

flüssig

flüssig flüssig

nicht flüssig

Selbstverständlich erwarten wir , unser Betätigungsfeld im Rahmen der Kampagne anzugeben .

Rekurrentes Neuronales Netz

flüssig

flüssig flüssig

flüssig

Grund 3: Komplexe Abhängigkeiten

NMÜ-Systeme haben keine separaten Module für Aspekte wie lexikalische Übersetzung, Wortstellung in der Zielsprache usw.

Sie behandeln Übersetzung ganzheitlich (end-to-end).

Lernen von Übersetzungen (SMÜ)

Übersetzungsmodell

Wortstellungsmodell

Sprachmodell

+Trainingsdaten

(Übersetzte Sätze)

Optimierungsdaten(Übersetzte Sätze)

Lernen von Übersetzungen

● SMÜ-System = Kombination mehrerer, separat trainierter Modelle

● Für kurze Sätze ist das Übersetzungsmodell wichtiger

als das Sprachmodell

● Übersetzungswahrscheinlichkeiten über 10% sind sehr nützlich,

alles darunter hingegen nutzlos

● NMÜ-System = ein einziges Modell, alle Komponenten werden in gemeinsamer Abhängigkeit zueinander trainiert

ni t ög i h

ke F c as m

Drei Gründe

1. Wortähnlichkeiten

NMÜ-Systeme können Bedeutungsähnlichkeiten von Wörtern berücksichtigen.

2. Ganze Sätze

NMÜ-Systeme berücksichtigen immer den ganzen Satz statt Teilsätze (N-Gramme).

3. Komplexe Abhängigkeiten

NMÜ-Systeme haben keine separaten Module für Aspekte wie lexikalische Übersetzung, Wortstellung in der Zielsprache usw. Sie behandeln Übersetzung ganzheitlich (end-to-end).

Wie funktioniert NMÜ?

Bestandteile

● Bedeutungsraum für Wörter der Ausgangssprache S (source embeddings)

● Bedeutungsraum für Wörter der Zielsprache T (target embeddings)

● Zuordnungsfunktion F

Beispielszenario

● Übersetzung von Deutsch (S) nach Englisch (T)

● Zwei Dimensionen

Bedeutungsräume

● Jedes Wort wird in einem mehrdimensionalen Raum platziert.

● Die numerische Repräsentation eines Wortes entspricht seinen Koordinaten in diesem Raum.

● Wörter mit ähnlichen Bedeutungen sind nahe beieinander im Raum platziert; sie haben ähnliche Koordinaten.

0 1 2 3

grünS(Haus) = [1.0, 1.0]

S(grün) = [2.5, 2.0]

S(rot) = [2.0, 2.0]

Bedeutungsräume: Lernvorgang

1. Zu Beginn werden allen Wörtern zufällige Koordinaten zugeordnet.

2. Für alle Sätze im Trainingsmaterial:

● Für jedes Wortpaar x, y:

● Kommen x und y im gleichen Satz vor, rücke sie näher zusammen.

3. Wiederhole Schritt 2, bis sich die Koordinaten nicht mehr wesentlich

verändern.

Bedeutungsräume: Lernvorgang (Beispiel)

Zufällige Anfangsverteilung:

0 1 2 3

grünrot

Bedeutungsraum S

0 1 2 3

Bedeutungsraum T

Aktueller Satz aus dem Trainingsmaterial:EN: Available colours are red, green, and blue.DE: Verfügbare Farben sind rot, grün und blau.

0 1 2 3

grünrot

Bedeutungsraum S

0 1 2 3

Bedeutungsraum T

Aktueller Satz aus dem Trainingsmaterial:EN: Available colours are red, green, and blue.DE: Verfügbare Farben sind rot, grün und blau.

0 1 2 3

grünrot

Bedeutungsraum S

0 1 2 3

Bedeutungsraum T

Aktueller Satz aus dem Trainingsmaterial:EN: Where are you?DE: Wo bist du?

0 1 2 3

grünrot

Bedeutungsraum S

0 1 2 3

Bedeutungsraum T

Aktueller Satz aus dem Trainingsmaterial:EN: Red means stop, green means go.DE: Rot heisst stopp, grün heisst start.

0 1 2 3

grünrot

Bedeutungsraum S

0 1 2 3

Bedeutungsraum T

Aktueller Satz aus dem Trainingsmaterial:EN: Red means stop, green means go.DE: Rot heisst stopp, grün heisst start.

0 1 2 3

Bedeutungsraum S

0 1 2 3

red house

Bedeutungsraum T

Zuordnungsfunktion

● Die Zuordnungsfunktion F ordnet einer Eingabe s eine Ausgabe t zu:

F(s) = t

F([2.5, 2.0]) = ?

F([2.5, 2.0]) = [0.0, 0.0]

S(Haus) = [1.0, 1.0]

S(grün) = [2.5, 2.0]

S(rot) = [0.0, 1.0]

T(Haus) = [3.0, 1.0]

T(grün) = [0.0, 0.0]

T(rot) = [2.5, 2.0]

Zuordnungsfunktion

0 1 2 3

Bedeutungsraum S

0 1 2 3

Bedeutungsraum TZuordnungsfunktion F

F([2.5, 2.0]) = [0.0, 0.0]

Zuordnungsfunktion: Lernvorgang

1. Zu Beginn ist die Zuordnungsfunktion F zufällig eingestellt.

2. Für alle Sätze im Trainingsmaterial:

● Für jedes Wortpaar s, t:

● Berechne F(s) = t’ mit der aktuellen Einstellung.● Berechne die Abweichung von t’ mit der korrekten Position t.● Stelle F so ein, dass die Abweichung kleiner wird.

3. Wiederhole Schritt 2, bis sich die Einstellung von F nicht mehr wesentlich verändert.

Zuordnungsfunktion: Lernvorgang (Beispiel)

0 1 2 3

Bedeutungsraum S

0 1 2 3

Eingabe Ausgabe F (ist) Ausgabe F (soll) Differenz

[2.5, 2.0] [2.0, 3.0] [0.0, 0.0] [2.0, 3.0]

0 1 2 3

Bedeutungsraum S

0 1 2 3

[2.5, 2.0] [1.0, 1.5] [0.0, 0.0] [1.0, 1.5]

0 1 2 3

Bedeutungsraum S

0 1 2 3

[2.5, 2.0] [2.0, 0.5] [0.0, 0.0] [2.0, 0.0]

0 1 2 3

Bedeutungsraum S

0 1 2 3

[2.5, 2.0] [2.0, 0.5] [0.0, 0.0] [1.0, 0.0]

0 1 2 3

Bedeutungsraum S

0 1 2 3

[2.5, 2.0] [0.0, 0.0] [0.0, 0.0] [0.0, 0.0]

Reale Szenarien

● Bedeutungsräume haben mehrere hundert Dimensionen.

● Die Einstellung (Parametrisierung) der Zuordnungsfunktion F muss für alle Wörter optimiert werden – nicht nur für «grün» wie in diesem Beispiel.

● Bedeutungsräume und Zuordnungsfunktion werden gemeinsam optimiert (end-to-end learning).

● Für jedes Wort werden zusätzlich alle vorhergehenden Wörter im Satz berücksichtigt.

● Wir arbeiten nicht zwingend mit ganzen Wörtern, sondern mit Subwort-Einheiten – mehr dazu später.

Die Transformer-Architektur (Vaswani et al., 2017)

● Encoder reichert jedes Eingabewort mit Kontextinformation aus dem ganzen Eingabesatz an.

● Decoder generiert Ausgabewörter von links nach rechts. Die Wahrscheinlichkeit für das jeweils nächste Wort ergibt sich aus

● allen (encodierten) Wörtern des Eingabesatzes,

● allen bisher generierten Ausgabewörtern.

Encoding

bestell@@ich e Kaffee

-7.3, 3.2, ..8.2, -1.2, .. 5.3, 2.2, .. 3.2, -2.1, ..

7.2, 0.3, ..-1.6, 3.8, .. 6.2, 9.3, .. 9.2, -8.0, ..

-7.5, 3.2, .. 8.2, 0.1, .. 9.2, 9.3, .. 9.2, -1.0, ..

7.5, -1.1, ..8.9, 2.7, .. 9.3, 8.9, .. 1.2, -3.6, ..

Decoding

bestell@@ich e Kaffee

-7.3, 3.2, ..8.2, -1.2, .. 5.3, 2.2, .. 3.2, -2.1, ..

7.2, 0.3, ..-1.6, 3.8, .. 6.2, 9.3, .. 9.2, -8.0, ..

-7.5, 3.2, .. 8.2, 0.1, .. 9.2, 9.3, .. 9.2, -1.0, ..

7.5, -1.1, ..8.9, 2.7, .. 9.3, 8.9, .. 1.2, -3.6, ..

<BOS>Y

0.2, -5.3, ..

8.5, 8.2, ..

1.2, -1.3, ..

6.6, 6.2, ..

softmax

9.8, 9.1, ..

-9.1, 1.1, ..

-1.2, 5.9 ..

6.5, 5.4 ..

Wie kann ich NMÜ in der Berufspraxis nutzen?

Anwendungsmöglichkeiten

● Oberfläche:● Verwendung von Webseiten

● Anbindung an CAT-Tool (Stichwort: APIs)

● Zweck:● Inspiration (z.B. Vorschläge von Übersetzungsalternativen)

● Qualitätssteigerung (z.B. hinsichtlich Kohärenz)

● Produktivitätssteigerung (Zeit und/oder Kosten sparen)

● Arbeitsabläufe:● «Klassische Übersetzung» plus NMÜ

● Full Post-Editing

● Light Post-Editing

● ...

Wie gut kann NMÜ bestimmte linguistische Phänomene

handhaben?

Beispiele

● Aktivsatz mit unbelebtem Subjekt im EN → Passivsatz im DE

● Umformulierung englischer Sätze mit leerem Funktionsverb (meist „to use“) wie „Use the Go button to ...“ – da steht (wie bei ungeübten/ungeschulten Humanübersetzern) oft wörtlich „Verwenden Sie die Schaltfläche ‚Los‘, um ... zu“ statt „Klicken Sie auf ‚Los‘, um ... zu ...“ oder „Klicken Sie zum ... auf ‚Los‘.“

NMÜ kennt keine Grammatikregeln.

Bestimmte Konstrukte werden teilweise falsch, teilweise richtig übersetzt – je nach Kontext.

Aktivsatz mit unbelebtem Subjekt

Englisch

Some texts favour the rights of the persecuted while others are against them.

Deutsch (DeepL, 1. Dezember 2018)

Einige Texte begünstigen die Rechte der Verfolgten, während andere gegen sie sind.

Aktivsatz mit unbelebtem Subjekt

Wieso passiert das?

● « ... da steht (wie bei ungeübten/ungeschulten Humanübersetzern) oft wörtlich … statt … »

● NMÜ-Systeme imitieren die Übersetzungen, die ihnen in der Herstellungsphase «gezeigt» wurden – auch wenn sie schlecht sind.

Denkanstösse

● Kann ich Teile der NMÜ verwenden?

● Bin ich dadurch schneller oder langsamer?

● Wird meine Übersetzung dadurch schlechter oder besser?

Wann soll NMÜ angewendet werden?

Fragen

● Was gibt es für Kriterien für die Verwendung von MT, sprich, was sollte bei einer Strategie für die Anwendung von MT beachtet werden? Welche Texte (Merkmale) eignen sich für die MT, welche nicht?

● Bei welchen Textsorten funktioniert die maschinelle Übersetzung gar nicht?

Für welche Textsorten eignet sich MÜ?

Textsorte Zeitersparnis durch Post-Editing (∅)

Referenz

● Software-Benutzeroberfläche

● Benutzerhandbuch

● EU-Ausschreibung (Call for Tender)

● Marketing-Text, z.B. Broschüre

● Eintrag in Enzyklopädie

Für welche Textsorten eignet sich MÜ?

Textsorte Zeitersparnis durch Post-Editing1 (∅)

Referenz

● Software-Benutzeroberfläche 40 % Plitt und Masselot, 2010

● Benutzerhandbuch 40 % Plitt und Masselot, 2010

● EU-Ausschreibung (Call for Tender) 27 % 2 Federico et al., 2012

● Marketing-Text, z.B. Broschüre 17 % 2 Läubli et al., 2013

● Eintrag in Enzyklopädie > sign. Green et al., 2013

1 Statistische MÜ 2 Messung inklusive CAT-Tool, TM und Termbase

Subjektiver Eindruck vs. objektive Messung

● Eindruck von MÜ-Qualität stammt oft von Erfahrung mit überholter Technologie (z.B. Green et al., 2013, s. Beispiel nebenan)

● Übersetzer*innen mit wenig Post-Editing-Erfahrung haben oft den subjektiven Eindruck, sie seien durch Post-Editing langsamer, sind gemäss objektiver Messung aber schneller (z.B. Läubli et al., 2013)

When asked, “Were the machine translations useful?”,

56% responded in the affirmative, 29% were neutral, and

only 15% disagreed. One user even responded,

Your machine translations are far better than the ones of Google, Babel and so on. So they wered helpfull [sic], but usually when handed over google-translated material, I find it way easier end [sic] quicker to do it on my own from unaided.

The subjects did not know that the suggestions came

from Google Translate. Users may have dated

perceptions of MT quality that do not account for the

rapid progress in the field.

Wann soll MÜ angewendet werden?

Immer.Aber nur als Hilfsmittel –

zusammen mit TM und Termbase.

Empfehlung: NMÜ für alle Textsorten verwenden

● NMÜ ist auch in schwierigen Texten manchmal sehr hilfreich.

● NMÜ ist auch in einfachen Texten manchmal sehr nutzlos.

● NMÜ ist ein weiteres Hilfsmittel neben TM und Termbase.

● Wichtig: Passende Integration und Anzeige im CAT-Tool

● Anzeige als Treffer neben Fuzzy Matches (selektive Verwendung nach Gutdünken)

● Automatisches Einfügen in Zieltext (Post-Editing)

● Interaktive MÜ (Predictive Typing)

● ...

Was sollte beim Einsatz von NMÜ besonders beachtet

werden?

Fragen

● Für welche Fehlerquellen muss beim Nachbearbeiten der NMÜ besonders sensibilisiert werden? Wie sehr ist das ausgangssprachenabhängig?

● Was ist beim Post-Editing zu beachten? Welche Schwierigkeiten treten bei der MT in der Regel auf, etwa in Bezug auf die Satzgliederung etc.?

● Worauf muss man beim Post-Editing besonders achten (häufige Fehler, ungenaue Übersetzungen, Auslassungen etc.)?

Typische NMÜ-Fehler

Ca. 15–25% der Ausgaben von NMÜ-Systemen sind einwandfrei. Typische Fehler in den restlichen Ausgaben sind:

● Falsche Wörter (grammatikalisch, semantisch)

● Weglassungen

● Falsch übersetzte Eigennamen

● Falsche Wortstellung

z.B. Castilho et al., 2017; Läubli et al., 2019

Typische Fehler und Sprachabhängigkeit

Quelle: Castilho et al., 2017. Fehlerkategorisierung durch professionelle Übersetzer in 1’000 automatisch übersetzten Sätzen aus Online-Kursmaterialien (MOOCs), erzeugt durch Statistische (PBSMT) und Neuronale MÜ (NMT). Ausgangssprache: EN.

Wieso macht NMÜ bestimmte Fehler?

Englisch

The former model says Bill Cosby drugged her then assaulted her in a hotel room in Lake Tahoe, but his defense team suggests she is making it up.

Deutsch (DeepL, 13. April 2018)

Das ehemalige Modell sagt, dass Bill Cosby sie dann in einem Hotelzimmer in Lake Tahoe betäubt hat, aber sein Verteidigungsteam schlägt vor, dass sie es erfindet.

Englisch

Auslassungen

Englisch

Fragen und Feststellungen

● Problem gut klingender, aber falscher Übersetzungen

● Wieso entstehen Fehler wie Auslassungen und kreative Wortneuschöpfungen?

Weglassungen

● NMÜ-Systeme bestehen (aktuell) aus zwei Teilen.

● Übersetzung eines Satzes läuft wie folgt ab:

● Der Encoder produziert je eine Repräsentation (Zahlenvektor) pro Eingabewort im Satzkontext.

● Der Decoder baut den Ausgabesatz schrittweise auf, Wort für Wort, von links nach rechts.

● Er kann dabei diejenigen Encoder-Ausgaben (Wörter in der Ausgangssprache) berücksichtigen,

die er für hilfreich befindet.

● Es gibt keine Garantie, dass er beim Erreichen des Satzendes alle Encoder-Ausgaben

berücksichtigt hat.

Encoder-Decoder-Architektur mit Attention

Quelle: Google AI Blog, 27. September 2016.

● Längennormalisierung

● Systeme können so beeinflusst werden, dass sie tendenziell längere oder kürzere

Übersetzungen produzieren.

● Gefahr: Wiederholungen bzw. Auslassungen

● Vollständigkeitsgarantie (coverage guarantee; Tu et al., 2016)

Auslassungen: Lösungsansätze

Englisch

Deutsch (DeepL, 1. Dezember 2018)

Das ehemalige Modell sagt, dass Bill Cosby sie betäubt hat, dann sie in einem Hotelzimmer in Lake Tahoe angegriffen hat, aber sein Verteidigungsteam schlägt vor, dass sie es erfindet.

Auslassungen: Verbesserung (?)

Kreative Wortneuschöpfungen

Deutsch

Herr Enderli vom AM-Seewen ist über das Problem informiert.

Französisch (Firma X, April 2018)

Monsieur final, de l'AM-maritime, est informé du problème.

Kreative Wortneuschöpfungen

Deutsch

Herr Enderli vom AM-Seewen ist über das Problem informiert.

Nach Vorverarbeitung:

Herr Ende@@ r@@ li vom AM@@ -@@ See@@ wen ist über das Problem inform@@ ier@@ t@@ .

Französisch (Firma X, April 2018)

Monsieur final, de l'AM-maritime, est informé du problème.

Vorverarbeitung von Eingabesätzen

Eingabe

«Zu den Attentatsopfern, die es in jüngster Zeit in Sri Lanka zu beklagen gab, zählt auch Herr Kumar Ponnambalam.»

Schritt 1: Normalisierung von Interpunktion

"Zu den Attentatsopfern, die es in jüngster Zeit in Sri Lanka zu beklagen gab, zählt auch Herr Kumar Ponnambalam."

Schritt 2: Tokenisierung

" Zu den Attentatsopfern , die es in jüngster Zeit in Sri Lanka zu beklagen gab , zählt auch Herr Kumar Ponnambalam . "

Schritt 3: Truecasing

" zu den Attentatsopfern , die es in jüngster Zeit in Sri Lanka zu beklagen gab , zählt auch Herr Kumar Ponnambalam . "

Schritt 4: Byte-pair encoding

" zu den Att@@ ent@@ ats@@ op@@ fern , die es in jün@@ gster Zeit in Sri Lanka zu bek@@ lagen gab , zählt auch Herr

K@@ um@@ ar Pon@@ nam@@ bal@@ am . "

Kreative Wortschöpfungen: Lösungsansätze

● Kopieren von unbekannten Wörtern aus der Ziel- in die Ausgangssprache

● Forcierte (Nicht-)Übersetzung bestimmter Wörter (s. Folien zu Terminologie)

● Herausforderung: Kein Verhindern gewollter Wortschöpfungen, z.B. bei Übersetzung deutscher Komposita

Post-Editing

Light und Full Post-Editing (PE)

Nach DePalma, 2013.

Lexical errorsSyntax errors

Less obvious errors

FluencyAppropriate

MT Output

Human quality

Light Post-Editing

Full Post-Editing

Richtlinien für Light PE

● Aim for semantically correct translation.● Ensure that no information has been accidentally added or omitted.● Edit any offensive, inappropriate or culturally unacceptable content.● Use as much of the raw MT output as possible.● Basic rules regarding spelling apply.● No need to implement corrections that are of a stylistic nature only.● No need to restructure sentences solely to improve the natural flow of the text.

Quelle: Unterrichtsmaterialien von Maureen Ehrensberger-Dow (ZHAW) nach Massardo et al., 2016.

Richtlinien für Full PE

● Aim for grammatically, syntactically and semantically correct translation.● Ensure that key terminology is correctly translated and that untranslated terms

belong to the client’s list of “Do Not Translate” terms.● Ensure that no information has been accidentally added or omitted.● Edit any offensive, inappropriate or culturally unacceptable content.● Use as much of the raw MT output as possible.● Basic rules regarding spelling, punctuation and hyphenation apply.● Ensure that formatting is correct.

Quelle: Unterrichtsmaterialien von Maureen Ehrensberger-Dow (ZHAW) nach Massardo et al., 2016.

Beispiel

Ausgangstext Zieltext Arbeitsschritt

Jahresbericht Wir haben 66 594 Tonnen Verpackungsmaterial im Wert von CHF 158 Millionen eingespart.

annual report We have 66 594 tons of packaging material worthof CHF 158 million saved.

Maschinelle Übersetzung

annual report We have saved 66 594 tons of packaging material worthof CHF 158 million.

Light PE

Annual Report We have saved 66,594 tons of packaging material, worthof CHF 158 million.

Full PE

Quelle: Unterrichtsmaterialien von Maureen Ehrensberger-Dow (ZHAW).

PE mit NMÜ: Erkenntnisse aus der Praxis

● NMÜ kann sehr gut sein.● Bei PE geht es nicht um Stil.● Es gibt einen Unterschied zwischen PE und Revision! (PE ist näher am

Korrekturlesen.)● Streben Sie bewusst einen bestimmten Qualitätsstandard an.● Perfektionismus nicht immer die richtige Einstellung. (Auch wenn es schwer zu

akzeptieren ist.)● Definition von «gut genug» (Light PE) kann eine Frage der Kultur sein.

Educate the client!● Achten Sie auf typische NMÜ-Fehler (s. vorherige Folien).

Nach Unterrichtsmaterialien von Maureen Ehrensberger-Dow (ZHAW).

Wie beeinflusst NMÜ professionelle

Übersetzer*innen?

Fragen und Hintergrund

● Wie arbeitet man (auch aus ergonomischer Sicht) am besten mit den MÜ-Tools, die uns zur Verfügung stehen? (Ich habe in den letzten Wochen „unsere“ MÜ ausprobiert und festgestellt, dass meine Tippfähigkeiten abgenommen haben, deswegen habe ich die MÜ jetzt wieder abgestellt.)

● Wie verhindert man, dass man «verblödet» und sich mit der Zeit zu sehr auf die Maschine verlässt?

● Problem der Vorübersetzung: Gefahr, dass der Übersetzer nicht mehr den Kontext recherchiert und einfach den Vorschlag übernimmt, vor allem unter Zeitdruck.

Diskussion

● Wie arbeitet man (auch aus ergonomischer Sicht) am besten mit den MÜ-Tools, die uns zur Verfügung stehen? (Ich habe in den letzten Wochen „unsere“ MÜ ausprobiert und festgestellt, dass meine Tippfähigkeiten abgenommen haben, deswegen habe ich die MÜ jetzt wieder abgestellt.)

● Wie verhindert man, dass man «verblödet» und sich mit der Zeit zu sehr auf die Maschine verlässt?

● Problem der Vorübersetzung: Gefahr, dass der Übersetzer nicht mehr den Kontext recherchiert und einfach den Vorschlag übernimmt, vor allem unter Zeitdruck.

Red Flag Act (1865–1896)

● Gesetz in Grossbritannien und Irland

● Ziel: Vermeidung von Unfällen im Strassenverkehr durch «Dampfwagen»

● Bei jedem Automobil mussten zwei Personen zum Führen des Fahrzeugs anwesend sein, und ein Fussgänger hatte voraus zu laufen, der zur Warnung der Bevölkerung eine rote Flagge (red flag) tragen musste (Wikipedia).

Verwandte Phänomene

● Waschmaschine

● Schreibmaschine: Tippfähigkeit vs. Schreibfähigkeit (Handschrift)

● Automatische Rechtschreib- und Grammatikprüfung

● Translation Memories (Diskussion seit 90er-Jahren; s. auch LeBlanc, 2013)

● ...

Wie wird sich das Übersetzen in Zukunft verändern?

These:

● Wegfall von Arbeit an «Textoberfläche» – Maschine generiert eine korrekte Übersetzung.

● Optimierung von Kommunikationsabsicht im jeweiligen Kontext

Empfehlung

Emotionslose Verwendung von NMÜ als weiteres Hilfsmittel – wie TM und Terminologie-Datenbanken

Vielen Dank für Ihre Aufmerksamkeit.

Samuel Läubli

Universität Zürichlaeubli@cl.uzh.ch

Fallstudie

Migros Bank AG

Bilanzsumme Jahresgewinn Kunden

43.3Milliarden CHF

223Millionen CHF

803’600

Angestellte (FTE) Filialen Standard & Poor’s Rating

1’319 67 A

Ausgangslage

● Übersetzung von ca. 5’800 Standardseiten pro Jahr

● Deutsch (CH) nach Französisch (CH) und Italienisch (CH)

● Komplett an LSPs ausgelagert

● Entscheid: Aufbau eines internen Übersetzungsteams («In-sourcing»)

Aufbau eines internen Übersetzungsteams

● 2.8 Vollzeitstellen

● Einführung von Across v6.3 (2017)

● 60% des Volumens wird intern übersetzt

● Ziel: Steigerung des intern übersetzten Volumens

● Entscheidung: Aufbau eines internen MÜ-Systems mit zwei Sprachrichtungen im Februar 2018

Projektablauf: Firmeninternes MT-System

● Laufzeit: 6 Monate ● Aktive Kundenbeteiligung (Übersetzer*innen, Fachexpert*innen, IT)

Production-readyBaseline Improved

Briefing, Mindsetting

Blindtest,Feedback

Integrationstest,Feedback

Auslieferung

Projekterfolg

● Produktivschaltung im August 2018

● Qualität: Vergleich mit DeepL (August 2018)

● Produktivität: Kontrollierte Messung im Oktober 2018

Ablauf Produktivitätsmessung

FR-1 FR-2 IT-1 IT-2

Ohne MÜ (TM-Only)

Mit MÜ (Post-Edit)

60 Minuten

Geschwindigkeit: Resultate

Deutsch–Französisch Deutsch–Italienisch

Hinweis: Unterschiedliche X-Achsen.

Qualität: Messung

● Zwei unabhängige ZHAW-Expert*innen pro Zielsprache

● Blindbewertung jeder Übersetzung mit Noten von 1 (sehr schlecht) bis 6 (sehr gut)

● Merkmale:

○ Kohärenz/Logik○ Kohäsion/Fluss○ Grammatik○ Kulturelle Adäquatheit○ Gesamteindruck

Qualität: Resultate

Kriterium Französisch Italienisch

TM-Only Post-Edit TM-Only Post-Edit

Gesamteindruck 4.50 4.50 4.75 4.88

Kohärenz/Logik 4.75 5.25 5.00 5.00

Kohäsion/Fluss 4.75 4.50 5.25 5.00

Grammatik 4.75 4.75 4.75 4.88

Lexik/Stil 4.50 5.00 5.00 5.00

Kulturelle Adäquatheit 4.50 4.75 4.50 4.75

Resultate

Kriterium TM-Only Post-Edit Differenz Kriterium TM-Only Post-Edit Differenz

Wörter / h 584.81 934.14 59.74 % Wörter / h 452.67 494.57 9.26 %

Qualität 4.50 4.50 0.00 Qualität 4.75 4.88 0.13

Deutsch–Französisch Deutsch–Italienisch

Schlussfolgerungen

● Höhere Geschwindigkeit

○ Französisch: + 59.7 %○ Italienisch: + 9.3 %

● Gleiche oder leicht höhere Qualität

○ Französisch: ± 0.00○ Italienisch: + 0.13

● MÜ schadet nie

○ Schlimmstenfalls gleiche Geschwindigkeit und gleiche Qualität○ Typischerweise höhere Geschwindigkeit und gleiche Qualität○ Teilweise sehr hohe Geschwindigkeiten und/oder leicht bessere Qualität

Einsatz bei der Migros Bank

● Projektdauer: 6 Monate, inkl. Anbindung an Across

● Steigerung der internen Übersetzungskapazität von 60% auf 80% des Gesamtvolumens

● Maschinelle Übersetzung wird für externe Übersetzung in Across-Paketen mitgeschickt

Berufsverband für Dolmetschen und Übersetzen Neuronale

Documents

Www.allaudit.atSeptember 20151 Für DolmetscherInnen und ÜbersetzerInnen Freiberuflich dolmetschen und übersetzen: Hindernislauf oder Zielgerade?

Studienleitfaden Dolmetschen SS14

Freiberuflich dolmetschen und übersetzen: Hindernislauf oder Zielgerade?

COC I Berufsverband der Deutschen Chirurgen e.V ... · COC I Berufsverband der Deutschen Chirurgen e.V. Berufsverband der Deutschen Chirurgen e.V. (BDC) Langenbeck-Virchow-Haus Luisenstraße

Das Konzept «Übersetzen» in der digitalen Transformation

2. Kölner Tagung Softwarelokalisierung 11.-12. März 2005 Fachrichtung 4.6 Angewandte Sprachwissenschaft sowie Übersetzen und Dolmetschen Universität des

Dolmetschen als Inszenierung – ein neuer kritischer und ... · DIES LEGENDI 2014: Studierende im Fokus – aktivierende Lehre an der JGU, 24.04.2014 Dolmetschen als Inszenierung

Übersetzen und Dolmetschen: Mit Sprachen arbeiten · Suchen Sie einen professionellen Übersetzer oder Dolmetscher? Dann lesen Sie weiter … Übersetzen und Dolmetschen: Mit Sprachen

HHU So Se 2014 Übersetzen

Dolmetschen bei der Polizei

FACHBÜCHER FÜR DOLMETSCHER UND ÜBERSETZER€¦ · Osterberg, Sarah (Hrsg.) Handbuch Dolmetschen Grundlagen und Praxis Das „Handbuch Dolmetschen“ umfasst das Dolmetschen für

Berufsverband Deutscher Pathologen e.V. SONDERAUSGABE...2.Jahrgang September 2003 5 03 Verbandszeitschrift pathologie .de Berufsverband Deutscher Pathologen e.V. Politische Konzepte

Übersetzen und Dolmetschen – Staatl. Prüfung und BA im ......Gerichts und Behördenterminologie (deutsch) 2. Fremdsprache (Sprachgrundlagen, Übersetzen) CAT (Computer Assisted

Seminare 2019 - Berufsverband Deutscher Markt- und ...€¦ · Mit seinen rund 1.500 Mitgliedern ist der BVM Berufsverband Deutscher Markt- und Sozialforscher e.V. die wichtigste

Berufsverband Niedergelassener Gastroenterologen ... · Berufsverband Niedergelassener Gastroenterologen Deutschlands CED Zertifikat CED-Schwerpunktpraxis im bng 2016/201712018/2019

Masterstudium dolmetschen

Postmoderne - Übersetzen von Drama

Studienleitfaden Übersetzen WS 1314

1 Kultur übersetzen...Stierstorfer, Katrin: Kultur übersetzen ReGlo – Das Realiaglossar 4 1.2 Die kulturelle Kompetenz des Übersetzers Wie im vorherigen Kapitel schon erwähnt,

SCHWIERIGKEITEN BEIM ÜBERSETZEN