Entwicklung und Einsatz von Lokalisierungswerkzeugen (Web-TCM) Informatik-, Computerlinguistik-,...

Preview:

Citation preview

Entwicklung und Einsatz vonLokalisierungswerkzeugen

(Web-TCM)

Informatik-, Computerlinguistik-, Fachsprachenkompetenz

Uta Seewald-Heeg

„Interdisziplinäre Zusammenarbeit in der Medieninformatik“Kolloquium zu Ehren von Prof. Dr.-Ing. Detlef Klöditz

Köthen, 22. November 2001

Entwicklung und Einsatz vonLokalisierungswerkzeugen

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

Lokalisierung

• Anpassung, d.h. Übersetzung eines Software-Produkts an einen lokalen Markt mit seinen sprachlichen und kulturellen Besonderheiten

• Anpassung, d.h. Übersetzung eines Software-Produkts an einen lokalen Markt mit seinen sprachlichen und kulturellen Besonderheiten

• Sprachliche und kulturelle Anpassung vonWeb-Seiten

Entwicklung und Einsatz vonLokalisierungswerkzeugen

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

Lokalisierungsprozess(nach Microsoft)

Kompetenzen bei derEntwicklung von Software und

Lokalisierungswerkzeugen

• Internationalisierung (I18N)• Globalisierung (G11N)

– (Sprach-, Kultur- und Plattform-Unabhängigkeit von Produkten)

• Lokalisierung (L10N)

• Internationalisierung (I18N)• Globalisierung (G11N)

– (Sprach-, Kultur- und Plattform-Unabhängigkeit von Produkten)

• Lokalisierung (L10N)

Internationalisierung

Bsp.: SortierroutinenBsp.: Sortierroutinen

Codierungssysteme

Codepages• Zuordnung von Byte-Werten auf Buchstaben eines

Alphabets• Byte-Werte (auch: Code-Points) sind Indizes in einer

Codepage• Bis zum Code 0x7F (127) werden Code-Points von allen

Codepages auf die gleichen Buchstaben abgebildet (ASCII-7-Bit-Zeichensatz)

• Unterscheidung in der Zuordnung der Buchstaben für Codes zwischen 0x80 (128) und 0xFF (255)

Codepages• Zuordnung von Byte-Werten auf Buchstaben eines

Alphabets• Byte-Werte (auch: Code-Points) sind Indizes in einer

Codepage• Bis zum Code 0x7F (127) werden Code-Points von allen

Codepages auf die gleichen Buchstaben abgebildet (ASCII-7-Bit-Zeichensatz)

• Unterscheidung in der Zuordnung der Buchstaben für Codes zwischen 0x80 (128) und 0xFF (255)

Byte String Windows Codepage 1252 Windows Codepage 1253Hex Dez (W. European) (Cyrillic)0xD6 214 Ö Ц0xFF 252 ü ь

encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Печатать'Cancel = 'Прерывание'Help = 'Помощь'tryAgain = 'Новая попытка'Icon = 'Пиктограмма'inspect = 'Исследовать'

Action = 'Окно переключить'

encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Печатать'Cancel = 'Прерывание'Help = 'Помощь'tryAgain = 'Новая попытка'Icon = 'Пиктограмма'inspect = 'Исследовать'

Action = 'Окно переключить'

Locales(Variablen mit sprach- bzw. marktabhängig

unterschiedlichen Werten)

• Zeichenketten• Datumsformate• Kalender, Zeitformate• Währungsformate• Maßeinheiten• Grafiken• Farben• Schreibstile• Produktverpackung

• Zeichenketten• Datumsformate• Kalender, Zeitformate• Währungsformate• Maßeinheiten• Grafiken• Farben• Schreibstile• Produktverpackung

encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Drucken'Cancel = 'Abbruch'Help = 'Hilfe'tryAgain = 'Neuer Versuch'Icon = 'Ikone'inspect = 'Untersuchen'

Action = 'Fenster umschalten'

encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Drucken'Cancel = 'Abbruch'Help = 'Hilfe'tryAgain = 'Neuer Versuch'Icon = 'Ikone'inspect = 'Untersuchen'

Action = 'Fenster umschalten'

encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Print'Cancel = 'Cancel'Help = 'Help'tryAgain = 'Retry'Icon = 'Button'inspect = 'Inspect'Action = 'Switch Window'

encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Print'Cancel = 'Cancel'Help = 'Help'tryAgain = 'Retry'Icon = 'Button'inspect = 'Inspect'Action = 'Switch Window'

VisualWorks 5.i

Datumsformate

22. November 200122.11.200122/11/2001

2001-11-22

11/22/2001November 22, 200122 November 2001

22/11/200122 novembre 2001

22. November 200122.11.200122/11/2001

2001-11-22

11/22/2001November 22, 200122 November 2001

22/11/200122 novembre 2001

Deutsch

EU

Amerikanisch

Französisch

Feldlängen

!

Entwicklung und Einsatz vonLokalisierungswerkzeugen

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

Kompetenz beim Einsatz von Lokalisierungswerkzeugen

MaschinelleÜbersetzungssysteme

Translation-Memory-Systeme

Programme zur Bearbeitungvon Online-Hilfen

Programme zur Lokalisierungvon Software-Quelldateien

Kompetenz beim Einsatz von Lokalisierungswerkzeugen

• Kulturkompetenz• Textsortenkompetenz• IT-Kompetenz

• Kulturkompetenz• Textsortenkompetenz• IT-Kompetenz

Kulturkompetenz

„Laufschrift“von links nach rechts laufend

„Laufschrift“von links nach rechts laufend

NavigationsleisteNavigationsleiste

DatumsangabenDatumsangaben

Textsortenkompetenz

• Textsorten– Handbücher– Online-Hilfe-Texte (i.d.R. HTML-Dateien)– Benutzerschnittstelle (Menüs, Benutzerdialoge,

Schaltflächen, Fensterinhalte, Icons)– Fehlermeldungen– Schulungsmaterial– Lizenzverträge

• Textsorteneigenschaften• Technische Realisierung, Formate

• Textsorten– Handbücher– Online-Hilfe-Texte (i.d.R. HTML-Dateien)– Benutzerschnittstelle (Menüs, Benutzerdialoge,

Schaltflächen, Fensterinhalte, Icons)– Fehlermeldungen– Schulungsmaterial– Lizenzverträge

• Textsorteneigenschaften• Technische Realisierung, Formate

BenutzerschnittstelleInterne Repräsentation von Textelementen

Menü in einem Entsprechung in der QuelldateiWindows-Programm (Resource File)

6 MENU FIXED IMPUREBEGINPOPUP "&DATEI"BEGINMENUITEM "&NEU...\tSTRG+N"MENUITEM "Ö&ffnen...\tSTRG+O"MENUITEM "S&chließen"MENUITEM SEPARATORMENUITEM "S&peichern\tSTRG+S"MENUITEM "&Speichern &unter..."MENUITEM "Als Websei&te

speichern..."MENUITEM "Pac&k & Go..."MENUITEM SEPARATORMENUITEM "&Webseitenvorschau"MENUITEM SEPARATORMENUITEM "Seite einr&ichten"

Tastenkombinationen

IT-KompetenzAufbau und Funktionsweise von

Lokalisierungswerkzeugen

PASSOLO erkennt typische Lokalisierungs-fehler wie abgeschnittene Beschriftungen von Schaltflächen

PASSOLO erkennt typische Lokalisierungs-fehler wie abgeschnittene Beschriftungen von Schaltflächen

Entwicklung und Einsatz vonLokalisierungswerkzeugen

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

Entwicklung desLokalisierungswerkzeugs

Web-TCM

• Web-TCM: Web Translation & Content Management • Kooperationsprojekt

– Fachbereich Informatik der Hochschule Anhalt (Studiengang Fachübersetzen)

– Firma Georg Heeg

• Web-TCM: Web Translation & Content Management • Kooperationsprojekt

– Fachbereich Informatik der Hochschule Anhalt (Studiengang Fachübersetzen)

– Firma Georg Heeg

Web-TCM

SmalltalkProgrammier-werkzeug des

Web-TCM

Web Translation& Content Management

• Web Translation– Lokalisieren, Übersetzen

• Content Management– Verwalten von Inhalten bzw. Änderungen

auf einer WWW-Seite (in einer beliebigen Sprache)

• Web Translation– Lokalisieren, Übersetzen

• Content Management– Verwalten von Inhalten bzw. Änderungen

auf einer WWW-Seite (in einer beliebigen Sprache)

Web-TCM

<!doctype ....><html><head>

<title> Fachübersetzen</title></head><body> ...<body></html>

Fachübersetzen

Extraktion derTextblöckeNummerierung derTextblöcke

Segmentierung

123....n

Deutsch

FachübersetzenEnglish

FrançaisTraduction specialisée

Русский технический перевод

HTML-Seite mitZugriffsfunktionüber die Nummernder Textblöcke

Memory

Web-TCM

Memory (TM)

Nr. DE EN FR RU

1 Sprache language langue язык

2Fachüber-

setzenTraduction spécialisée

3

.

.

n

HTML-Seite mitZugriffsfunktionüber die Nummernder Textblöcke

<!doctype ....><html><head>

<title><%=tm at: 2%></title></head><body> ...<body></html>

Sprachparameter (lang=de) in der URL

de fr

Web-TCM

<!doctype ....><html><head>

<title>Fachübersetzen</title></head><body> <h1>Fachübersetzen</h1> <body></html>

<!doctype ....><html><head>

<title>Traduction spécialisée</title></head><body> <h1>Traduction spécialisée</h1><body></html>

Fachübersetzen Traduction spécialisée

http://fue.htm?lang=deURL http://fue.htm?lang=frURL

Fachübersetzen Traduction spécialisée

Web-TCM

Workfloweinsprachig → mehrsprachig

1. HTML-Dateien bereitstellen– HTML Tidy (www.w3.org)

2. HTML-Dateien in XHTML-Dateien konvertieren– Jede Datei beginnt mit einer DTD– Jedes Tag muss beendet werden, z.B. <br></br>,

kurz: <br />– Alle HTML-Bestandteile werden klein geschrieben.– Substitution bestimmter Tags, z.B. <b> <strong>

Web-TCM

XHTML

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

 

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

<meta name="generator" content="HTML Tidy, see www.w3.org" />

<meta http-equiv="Content-Type"

content="text/html; charset=utf-8" />

 

<title>Fach&uuml;bersetzen</title>

</head>

...

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

 

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

<meta name="generator" content="HTML Tidy, see www.w3.org" />

<meta http-equiv="Content-Type"

content="text/html; charset=utf-8" />

 

<title>Fach&uuml;bersetzen</title>

</head>

...

Web-TCM

Workfloweinsprachig → mehrsprachig

1. HTML-Dateien bereitstellen– HTML Tidy (www.w3w.org)

2. HTML-Dateien in XHTML-Dateien konvertieren– Jede Datei beginnt mit einer DTD– Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br />– Alle HTML-Bestandteile werden klein geschrieben.– Substitution bestimmter Tags, z.B. <b> <strong>

3. Segmentierung der HTML-Dateien– *.htm (XHTML)– XML-Parser in Smalltalk (Parse-Tree)– Segmentierer in Smalltalk (Baumtransformation, TM-

Segmente)– Generierung der ssp-Dateien (*.ssp)– Ablegen der AS-Segmente (hier: deutsch) in das TM

Web-TCM

SSPSmalltalk Server Pages

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<%lang := request anyParameterValueAt: 'lang'.

tm := Heeg.Translator.TM new: lang.%>

<html>

<head>

<meta name="generator" content="HTML Tidy, see www.w3.org"/>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>

<title>

<%=tm at: 158%>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<%lang := request anyParameterValueAt: 'lang'.

tm := Heeg.Translator.TM new: lang.%>

<html>

<head>

<meta name="generator" content="HTML Tidy, see www.w3.org"/>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>

<title>

<%=tm at: 158%>

Web-TCM

Workfloweinsprachig → mehrsprachig

1. HTML-Dateien bereitstellen– HTML Tidy (www.w3w.org)

2. HTML-Dateien in XHTML-Dateien konvertieren– Jede Datei beginnt mit einer DTD– Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br />– Alle HTML-Bestandteile werden klein geschrieben.– Substitution bestimmter Tags, z.B. <b> <strong>

3. Segmentierung der HTML-Dateien– *.htm (XHTML)– XML-Parser in Smalltalk (Parse-Tree)– Segmentierer in Smalltalk (Baumtransformation, TM-

Segmente)– Generierung der ssp-Dateien (*.ssp)– Ablegen der AS-Segmente (hier: deutsch) in das TM

4. ResegmentierenWeb-TCM

Workfloweinsprachig → mehrsprachig

1. HTML-Dateien bereitstellen– HTML Tidy (www.w3w.org)

2. HTML-Dateien in XHTML-Dateien konvertieren– Jede Datei beginnt mit einer DTD– Jedes Tag muss beendet werden, z.B. <br></br>, kurz: </br>– Alle HTML-Bestandteile werden klein geschrieben.– Substitution bestimmter Tags, z.B. <b> <strong>

3. Segmentierung der HTML-Dateien– *.htm (XHTML)– XML-Parser in Smalltalk (Parse-Tree)– Segmentierer in Smalltalk (Baumtransformation, TM-Segmente)– Generierung der ssp-Dateien (*.ssp)– Ablegen der AS-Segmente (hier: deutsch) in das TM

4. Resegmentieren5. Übersetzen

– Translation Memory in allen Zielsprachen

Web-TCM

Export in kommerzielle TM-SystemeTMX-Austauschformat

<?xml version="1.0"?>

<!DOCTYPE tmx PUBLIC "-//LISA OSCAR:1997//DTD for Translation Memory eXchange//EN" "http://www.lisa.org/tmx/tmx11.dtd">

<tmx version="1.1">

<header

creationtool="Web-TCM"

creationtoolversion="0.55"

datatype="HTML"

o-tmf="Web-TCM"

segtype="sentence"

adminlang="en-us"

srclang="DE"

o-encoding="utf-8">

</header>

<?xml version="1.0"?>

<!DOCTYPE tmx PUBLIC "-//LISA OSCAR:1997//DTD for Translation Memory eXchange//EN" "http://www.lisa.org/tmx/tmx11.dtd">

<tmx version="1.1">

<header

creationtool="Web-TCM"

creationtoolversion="0.55"

datatype="HTML"

o-tmf="Web-TCM"

segtype="sentence"

adminlang="en-us"

srclang="DE"

o-encoding="utf-8">

</header>

<body><tu tuid="1"><tuv lang="de"><seg>Sprach- und Sachfachangebot</seg></tuv><tuv lang="en"><seg>Languages and application domains</seg></tuv><tuv lang="fr"><seg>Langues et disciplines sp&#233;cialis&#233;es</seg></tuv><tuv lang="ru"><seg>&#1071;&#1079;&#1099;&#1082;&#1072; &#1080; &#1076;&#1080;&#1089;&#1094;&#1080;&#1087;&#1083;&#1080;&#1085;&#1072;</seg></tuv></tu>... </body>

<body><tu tuid="1"><tuv lang="de"><seg>Sprach- und Sachfachangebot</seg></tuv><tuv lang="en"><seg>Languages and application domains</seg></tuv><tuv lang="fr"><seg>Langues et disciplines sp&#233;cialis&#233;es</seg></tuv><tuv lang="ru"><seg>&#1071;&#1079;&#1099;&#1082;&#1072; &#1080; &#1076;&#1080;&#1089;&#1094;&#1080;&#1087;&#1083;&#1080;&#1085;&#1072;</seg></tuv></tu>... </body>

Entwicklungsaufwand

• Zwei Arbeitswochen• Interaktive Weiterentwicklung während der

Nutzung

• Zwei Arbeitswochen• Interaktive Weiterentwicklung während der

Nutzung

Web-TCM

ROBUSTROBUST

Web-TCMVergleich mit kommerziellen TM-basierten

Lokalisierungswerkzeugen

• Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit real unterstütztBei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer

• Passwort-geschützter Zugang• https (http mit Verschlüsselung)• Kombiniert Translation-Memory-Technologie mit Content-

Management• Unterstützt Export in kommerzielle TM-Systeme

(TMX-Austauschformat)• Unterstützt Export statischer Web-Seiten in allen

verfügbaren Sprachen

• Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit real unterstütztBei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer

• Passwort-geschützter Zugang• https (http mit Verschlüsselung)• Kombiniert Translation-Memory-Technologie mit Content-

Management• Unterstützt Export in kommerzielle TM-Systeme

(TMX-Austauschformat)• Unterstützt Export statischer Web-Seiten in allen

verfügbaren Sprachen

Kompetenz für das Lokalisierungsprojektund den Einsatz von Web-TCM

Sprachdatenverarbeitung„Grundlagen der Lokalisierungstechnologie“

• Codierungssysteme• Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM• Dynamische Web-Seiten, HTML, XML• Lokalisierungsprojekt: Web-Site-Lokalisierung (D E, F, R)

– Projektorganisation• Projektmanager• Übersetzungsteams• „Proofreading”, Qualitätskontrolle

– Arbeitsschritte• Extraktion von Textelementen aus Grafiken• Vorbereitung der Terminologie• Übersetzung der Webseiten• „Proofreading“• Übergabe

• Lokalisierungswerkzeug (Web-TCM)

• Codierungssysteme• Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM• Dynamische Web-Seiten, HTML, XML• Lokalisierungsprojekt: Web-Site-Lokalisierung (D E, F, R)

– Projektorganisation• Projektmanager• Übersetzungsteams• „Proofreading”, Qualitätskontrolle

– Arbeitsschritte• Extraktion von Textelementen aus Grafiken• Vorbereitung der Terminologie• Übersetzung der Webseiten• „Proofreading“• Übergabe

• Lokalisierungswerkzeug (Web-TCM) SS 2001

Entwicklung und Einsatz vonLokalisierungswerkzeugen

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Softwareund Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

1. Lokalisierung

2. Kompetenzen bei der Entwicklung von Softwareund Lokalisierungswerkzeugen

3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen

4. Entwicklung des LokalisierungswerkzeugsWeb-TCM

5. Resümee

Resümee

• Sowohl Entwicklung als auch Einsatz von Lokalisierungswerkzeugen erfordern Kompetenzen aus den drei Bereichen:– Informatik– Computerlinguistik– Sprachmittlung, Fachsprachen

• Einrichtung der Vertiefungsrichtung „Softwarelokalisierung“ im Diplomstudiengang Fachübersetzen am Fachbereich Informatik trägt dieser Interdisziplinarität Rechnung

• FB Informatik der HS Anhalt (FH) damit in der Hochschulausbildung wegweisend

• Sowohl Entwicklung als auch Einsatz von Lokalisierungswerkzeugen erfordern Kompetenzen aus den drei Bereichen:– Informatik– Computerlinguistik– Sprachmittlung, Fachsprachen

• Einrichtung der Vertiefungsrichtung „Softwarelokalisierung“ im Diplomstudiengang Fachübersetzen am Fachbereich Informatik trägt dieser Interdisziplinarität Rechnung

• FB Informatik der HS Anhalt (FH) damit in der Hochschulausbildung wegweisend

Recommended