Upload
gisilbert-hensler
View
114
Download
3
Embed Size (px)
Citation preview
Intelligente Terminologiearbeit an der Quelle
Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 2
Agenda
I. Historische EntwicklungenII. Ein neuer BegriffIII. Ein Blick in die PraxisIV. Neue Ansatzpunkte
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 3
I. Entwicklung
Ein Blick zurück
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 4
MCT@euroscript :: Multilingual Content Technologies
Systeme, Integrationen
Beratung
Prozessoptimierung
Dienstleistungen
Erstellen Übersetzen Publizieren
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 5
euroscript :: MCT
Beratung, Trainingim Umfeld TMS, CMS, Redaktionssysteme, Terminologiesystemunabhängig, zertifizierter Partner
Cross Over ConsultingVermittlung ganzheit-licher Ansätze für homo-gene Abläufe im Gesamtunternehmen
Design von Architekturen Kundenportale und Automatisierungen, Worflowoptimierungen
Terminologieprojekte Erarbeiten von Termi-nologie-Architekturen und -strukturen sowie -workflows, Initialbefül-lung der Systeme, Migrationen
Maschinelle ÜbersetzungBedarfsanalyse, Machbarkeitsstudien, Systemeinführung, Systemintegration, Initialbefüllung, Domainpflege
Quelltextoptimierung, Autorenunterstützung Lösungsansätze auf der Grundlage von acrolinx
Beratung, Prozessoptimierung
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 6
Entwicklungen :: Systeme im Umfeld
RS TMSTDB
AATDB
DTP
conv
MÜ
TDB
Steuerung
TMS = Translation Memory SystemTDB = Terminologie-DatenbankDTP = Desktop Publishingconv = Konverter für DirektpublikationenRS = RedaktionssystemAA = System zur AutorenunterstützungMÜ = System für maschinelle Übersetzung
fuzz = Fuzzy-Algorithmen, Statistikling = linguistische Basis
fuzz
ling
ling
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 7
Entwicklungen :: Die Frage nach der TDB
TMSTDB
TMSTDB
Übersetzungsdienstleister[Industrie-]Anwender
RS
AATDB
Rollen im Prozess
A = Autor, interner AuftraggeberO = Organisator, ProjektmanagerQ = qualitätssichernde InstanzÜ = Übersetzer, EntsprechungsfinderR = Reviewer, Revisor
fuzzlingfuzz
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 8
Termarbeit klassisch = Fuzzy [grob]
Bezogen auf Terminologie-Funktionen: Fuzzy-Suche Fuzzy-Finden statistische Methoden keine Normalisierung
Bezogen auf Prozessschritte Übersetzungsprozess Fuzzy-Terminologie-Harvesting
hinzufügen neu
Terminologiearbeit, laufend Fuzzy-Abgleich gegen den existierenden Bestand
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 9
Ein Beispiel in klassischer Ausführung [1]
Termextraktion ohne allzu besondere Workflow-Einstellungen
ggf. nur in Kombination mit Dokumentübersetzung möglich
gut gemeintes, fatales Prozessjunktim
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 10
Ein Beispieltext
Benutzerfreundlichkeit Kompaktes Design und geringes Gewicht ermöglichen das Messen mit nur einer Hand Einfache Bedienung, auch mit Arbeitshandschuhen Problemloses Messen auch bei schwerer Zugänglichkeit der Proben Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse Messzelle mit Sichtfenster und Hintergrundbeleuchtung Robustheit Robustes, dichtes Gehäuse Entwickelt für den Einsatz in der Industrie und im Freien Geprüfte Beständigkeit der probenberührenden Teile gegen Batteriesäure und sämtliche
gängigen chemischen Proben Eigensicher (ATEX-Kennzeichnung [Ex] II 2 G Ex ib IIC T4) Kabellose Kommunikation IrDA-Schnittstelle für Datenaustausch mit dem PC und Datenexport an den Drucker RFID-Schnittstelle für einfachen Wechsel der Messeinstellungen durch Einlesen von RFID-Tags Effizienz Speicher für bis zu 100 Proben-IDs zur einfachen Probenidentifizierung Speicher für bis zu 20 Messmethoden Speicher für bis zu 1024 Messergebnisse Zwei austauschbare 1,5-V-AA-Batterien für einen langfristigen, verlässlichen Betrieb Energiesparmodus zur Senkung des Stromverbrauchs Einfacher und schneller Austausch der gesamten Pumpeneinheit
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 11
Ein Beispiel in klassischer Ausführung [2]
Rein statistische Auswertung mit einigen wenigen Optionen zur Einschränkung
Aus der Liste wählt man manuell seine Kandidaten per Tickbox "Term" oder schließt "Stoppwörter" aus.
zusätzlich steht die Segmentanzeige zur Verfügung (Kontext)
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 12
Ein Beispiel in klassischer Ausführung [3]
Schon bekannte Terme sind in fett und blau markiert und werden direkt vorgeschlagen.
Eine Grundformreduzierung ist hier inzwischen möglich (Messergebnisse und Proben im Plural), muss nachträg-lich angepasst werden
Daraus folgt allerdings: ursprünglich flektierte Formen werden immer wieder extrahiert
Erst wenn alle Kandidaten auf "Final" gesetzt wurden, kann die Aufgabe abge-schlossen werden und die Terme gehen in den Termbestand über.
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 13
II. Ein neuer Begriff
Terminologie 2.0
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 14
Terminologie 2.0
Terminologiearbeit wird in den linguistischen Kontext erhoben
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 15
Entwicklungen :: neu = linguistisch
Bezogen auf Terminologie-Funktionen: Fuzzy-Suche findet weiterhin statt Fuzzy-Finden findet ebenso weiterhin statt Normalisierung: das ist neu
Bezogen auf Prozessschritte Terminologie-Harvesting
hinzufügen neu = linguistisch basiert
Terminologiearbeit, laufend recht verlässlicher, linguistisch basierter Abgleich gegen den existierenden Bestand
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 16
Beispiel [linguistisch]
Term Freq. Status Contexts PoS
Speicher 3 Proposed Speicher noun
Hintergrundbeleuchtung 2 Proposed Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse … noun
Messergebnis 2 Proposed Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse… noun
Arbeitshandschuh 1 Proposed Einfache Bedienung, auch mit Arbeitshandschuhen noun
ATEX-Kennzeichnung 1 Proposed Eigensicher (ATEX-Kennzeichnung [Ex] II 2 G Ex ib IIC T4) noun
Benutzerfreundlichkeit 1 Proposed Benutzerfreundlichkeit noun
Beständigkeit 1 Proposed Geprüfte Beständigkeit der probenberührenden Teile gegen Batteriesäure und sämtliche gängigen… noun
Datenaustausch 1 Proposed IrDA-Schnittstelle für Datenaustausch mit dem PC und Datenexport an den Drucker noun
Datenexport 1 Proposed IrDA-Schnittstelle für Datenaustausch mit dem PC und Datenexport an den Drucker noun
Energiesparmodus 1 Proposed Energiesparmodus noun
Gehäuse 1 Proposed Robustes, dichtes Gehäuse noun
IIC 1 Proposed Eigensicher (ATEX-Kennzeichnung [Ex] II 2 G Ex ib IIC T4) noun
IrDA-Schnittstelle 1 Proposed IrDA-Schnittstelle noun
kabellos 1 Proposed Kabellose adj
LC-Display 1 Proposed Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse noun
Messeinstellung 1 Proposed RFID-Schnittstelle für einfachen Wechsel der Messeinstellungen durch Einlesen von RFID-Tags noun
Messmethoden 1 Proposed Speicher für bis zu 20 Messmethoden noun
probenberührend 1 Proposed Geprüfte Beständigkeit der probenberührenden Teile gegen Batteriesäure und sämtliche gängigen… adj
Probenidentifizierung 1 Proposed Speicher für bis zu 100 Proben-IDs zur einfachen Probenidentifizierung noun
Proben-IDs 1 Proposed Speicher für bis zu 100 Proben-IDs zur einfachen Probenidentifizierung noun
Pumpeneinheit 1 Proposed Einfacher und schneller Austausch der gesamten Pumpeneinheit noun
RFID-Schnittstelle 1 Proposed RFID-Schnittstelle noun
RFID-Tag 1 Proposed RFID-Schnittstelle für einfachen Wechsel der Messeinstellungen durch Einlesen von RFID-Tags noun
Robustheit 1 Proposed Robustheit noun
Sichtbarkeit 1 Proposed Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse noun
Sichtfenster 1 Proposed Messzelle mit Sichtfenster und Hintergrundbeleuchtung noun
Stromverbrauch 1 Proposed Energiesparmodus zur Senkung des Stromverbrauchs noun
Zugänglichkeit 1 Proposed Problemloses Messen auch bei schwerer Zugänglichkeit der Proben noun
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 17
Workflowszenario [A]
ein repräsentativer Terminologiebestand existiert neue Terminologie entsteht mit neuen Technologien und neuen Produkten Vorschlagsgremium Terminologiekreis
technische Tool-Unterstützung bei einer Extraktion ist nicht zwingend erforderlich Agieren der Prozessbeteiligten in einem TDB-System
TDB
Schritte im Prozess:
1. Kreieren neuer Terme im Terminologiekreis (mindestens Quelle, Kontext, Definition)
2. Übertragung in Zielsprachen3. inhaltliche Freigabe durch z. B. Tochtergesellschaften4. Strukturelle Freigabe im Gesamtbestand
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 18
Workflowszenario [B]
Tf(R) = Tf(Ü) =Redakteure sehen Terminologie durch andere Brillen als Übersetzer
Zusätzlich ein Vorschlagswesen seitens des Übersetzers ist sinnvoll. Daher gibt es hier auch: Termharvesting/Termextraktionsprozesse. Schwierigkeit: Termarbeit parallel zum Übersetzungsprozess
zeitkritische Freigabeprozesse potenzielle Inkonsistenzen in Memory und CMS
zusätzlicher Termbestand beim Übersetzungsdienstleister Nutzung des acrolinx-Kontepts non-Terme
TDBTDBTDB
Schritte im Prozess:
1. Kreieren neuer Terme und Zielvorschläge im Übersetzungsprozess
2. Termantrag an Terminologiekreis 3. strukturelle Freigabe oder Abweisung
a) Aufnahme in Gesamtbestandb) Aufnahme in zusätzlichen Termbestand beim Übersetzungsdienstleister
4. ggf. inhaltliche Freigabe durch Tochtergesellschaft
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 19
Workflowszenario [C]
es existiert kein repräsentativer Terminologiebestand daher: Termharvesting/Termextraktion Probleme im Ablauf:
Projektlaufzeit Freigabeprozess im Memory abgebildete potenziell ungültige Terminologie dito im CMS
Schritte: Termharvesting/Termextraktion Klassifizieren [zeitextensiv, aber unabdingbar und einmalig] Übertragen Freigeben
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 20
III. Ein Blick in die Praxis
Fallstricke
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 21
Vorsicht 1
Komplexe Anforderungen wegen mehrerer Systeme: Datenbankstrukturen müssen komplexe Anforderungen über mehrere
Prozesse abbilden Rollen/Rechte-Konzept muss bis auf die Sprachebene geregelt werden Definieren eines Termbanksystems als das führende Definieren von Synchronisierungsmechanismen bzw. Austauschritualen
zwischen den Systemen
Unausweichliche Notwendigkeit eines Terminologiekonzepts:
strukturellen Anforderungen Prozessbeschreibungen Beschreibung der Arbeitsteiligkeiten/Verantwortlichkeiten
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 22
Vorsicht 2
Schwierigkeiten im Prozessablauf bei parallelen Termprozessen
geharvestete* Terme, die ganz neu sind geharvestete* Terme, die erfasst sind, aber noch nicht kategorisiert
wurden geharvestete* Terme, die für eine andere Sprachrichtung bereits als
valide Terme kategorisiert wurden und noch keine zielsprachige Entsprechung haben
… müssen gleichzeitig, aber unterschiedlich behandelt werden
* Unwort
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 23
Vorsicht 3
Verführerisches Feature Schnelleingabe von Termen *Die Erfassung von Termen direkt aus dem Editor kann in streng konzipierten Prozessen unter Umständen zum ineffizienten Bummerang werden:
Die Auswahl neuer Terme erfolgt seriell. non-Terme werden nicht erfasst. Eine konsequente Erfassung von Terminologie findet also nicht statt
[= valide Terme + Unworte + non-Terme]. Damit ist die Terminologie im acrolinx-Sinne [Terminologie 2.0] nicht
repräsentativ. Da non-Terme nicht bekannt sind, werden bei der Prüfung von Inhalten
potenziell mehr Fehler ausgegeben. Dies kann bei strengen Prozessritualen [Freigabe von Dokumenten auf
der Basis der acrolinx-Bewertung] zu unerwünschten Effekten führen.
* Nachtrag, unter Eindruck der Vorträge aus dem acrolinx-Labor auf der UserKonferenz
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 24
IV. Neue Perspektiven
Brücke zur MÜ:Quelltextoptimierung
und maschinelle Übersetzung
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 25
Ansätze
regelbasierte MÜ-Systeme * steuerbare Prozesse linguistische Synergien via Terminologie
RS TMSTDB
AATDB
MÜ
TDB
* Terminologie auch nutzbar in statistisch basierten MÜ-Szenarien, aber mit vergleichsweise geringerem Potenzial zur Prozesssteuerung
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 26
Innovation
Forschungsprojekt taraXŰ Prototyp eines selbsttarierenden Übersetzungssystems
automatisierte Übersetzungsprozesse integrierte Quelltextbewertung intelligente Prozesssteuerung Integration von TM-Technologie, regelbasierter MÜ und statistischer MÜ umfangreiche Evaluierungsrunden im Projekt
Konsortium: acrolinx + DFKI + euroscript + yocoy gefördert vom Land Berlin
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 27
Fazit
Terminologiearbeit berührt aktuell meist mehrere Bereiche in den komplexen Prozessketten des Managens von Inhalten in einem Unternehmen.
Weitere Ansatzpunkte [MÜ] liegen nahe. Die aktuellen Systeme sind noch nicht für die Abbildung aller
Anforderungen ausgestattet. Daher sind aktuell Architekturen mit mehreren
Terminologiekomponenten durchaus sinnvoll [Schwerpunkt Autorenunterstützung, Schwerpunkt Übersetzungsprozess, Schwerpunkt maschinelle Übersetzung].
Synergien über diese Systeme hinweg können aber bereits jetzt eingelöst werden.
Dies wird die Basis sein für eine technologische Assimilation dieser Ansätze…
… und ein Zusammenwachsen der Systeme.
Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 28
Danke für die Aufmerksamkeit!