28
Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Embed Size (px)

Citation preview

Page 1: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Intelligente Terminologiearbeit an der Quelle

Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Page 2: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 2

Agenda

I. Historische EntwicklungenII. Ein neuer BegriffIII. Ein Blick in die PraxisIV. Neue Ansatzpunkte

Page 3: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 3

I. Entwicklung

Ein Blick zurück

Page 4: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 4

MCT@euroscript :: Multilingual Content Technologies

Systeme, Integrationen

Beratung

Prozessoptimierung

Dienstleistungen

Erstellen Übersetzen Publizieren

Page 5: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 5

euroscript :: MCT

Beratung, Trainingim Umfeld TMS, CMS, Redaktionssysteme, Terminologiesystemunabhängig, zertifizierter Partner

Cross Over ConsultingVermittlung ganzheit-licher Ansätze für homo-gene Abläufe im Gesamtunternehmen

Design von Architekturen Kundenportale und Automatisierungen, Worflowoptimierungen

Terminologieprojekte Erarbeiten von Termi-nologie-Architekturen und -strukturen sowie -workflows, Initialbefül-lung der Systeme, Migrationen

Maschinelle ÜbersetzungBedarfsanalyse, Machbarkeitsstudien, Systemeinführung, Systemintegration, Initialbefüllung, Domainpflege

Quelltextoptimierung, Autorenunterstützung Lösungsansätze auf der Grundlage von acrolinx

Beratung, Prozessoptimierung

Page 6: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 6

Entwicklungen :: Systeme im Umfeld

RS TMSTDB

AATDB

DTP

conv

TDB

Steuerung

TMS = Translation Memory SystemTDB = Terminologie-DatenbankDTP = Desktop Publishingconv = Konverter für DirektpublikationenRS = RedaktionssystemAA = System zur AutorenunterstützungMÜ = System für maschinelle Übersetzung

fuzz = Fuzzy-Algorithmen, Statistikling = linguistische Basis

fuzz

ling

ling

Page 7: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 7

Entwicklungen :: Die Frage nach der TDB

TMSTDB

TMSTDB

Übersetzungsdienstleister[Industrie-]Anwender

RS

AATDB

Rollen im Prozess

A = Autor, interner AuftraggeberO = Organisator, ProjektmanagerQ = qualitätssichernde InstanzÜ = Übersetzer, EntsprechungsfinderR = Reviewer, Revisor

fuzzlingfuzz

Page 8: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 8

Termarbeit klassisch = Fuzzy [grob]

Bezogen auf Terminologie-Funktionen: Fuzzy-Suche Fuzzy-Finden statistische Methoden keine Normalisierung

Bezogen auf Prozessschritte Übersetzungsprozess Fuzzy-Terminologie-Harvesting

hinzufügen neu

Terminologiearbeit, laufend Fuzzy-Abgleich gegen den existierenden Bestand

Page 9: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 9

Ein Beispiel in klassischer Ausführung [1]

Termextraktion ohne allzu besondere Workflow-Einstellungen

ggf. nur in Kombination mit Dokumentübersetzung möglich

gut gemeintes, fatales Prozessjunktim

Page 10: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 10

Ein Beispieltext

Benutzerfreundlichkeit Kompaktes Design und geringes Gewicht ermöglichen das Messen mit nur einer Hand Einfache Bedienung, auch mit Arbeitshandschuhen Problemloses Messen auch bei schwerer Zugänglichkeit der Proben Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse Messzelle mit Sichtfenster und Hintergrundbeleuchtung Robustheit Robustes, dichtes Gehäuse Entwickelt für den Einsatz in der Industrie und im Freien Geprüfte Beständigkeit der probenberührenden Teile gegen Batteriesäure und sämtliche

gängigen chemischen Proben Eigensicher (ATEX-Kennzeichnung [Ex] II 2 G Ex ib IIC T4) Kabellose Kommunikation IrDA-Schnittstelle für Datenaustausch mit dem PC und Datenexport an den Drucker RFID-Schnittstelle für einfachen Wechsel der Messeinstellungen durch Einlesen von RFID-Tags Effizienz Speicher für bis zu 100 Proben-IDs zur einfachen Probenidentifizierung Speicher für bis zu 20 Messmethoden Speicher für bis zu 1024 Messergebnisse Zwei austauschbare 1,5-V-AA-Batterien für einen langfristigen, verlässlichen Betrieb Energiesparmodus zur Senkung des Stromverbrauchs Einfacher und schneller Austausch der gesamten Pumpeneinheit

Page 11: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 11

Ein Beispiel in klassischer Ausführung [2]

Rein statistische Auswertung mit einigen wenigen Optionen zur Einschränkung

Aus der Liste wählt man manuell seine Kandidaten per Tickbox "Term" oder schließt "Stoppwörter" aus.

zusätzlich steht die Segmentanzeige zur Verfügung (Kontext)

Page 12: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 12

Ein Beispiel in klassischer Ausführung [3]

Schon bekannte Terme sind in fett und blau markiert und werden direkt vorgeschlagen.

Eine Grundformreduzierung ist hier inzwischen möglich (Messergebnisse und Proben im Plural), muss nachträg-lich angepasst werden

Daraus folgt allerdings: ursprünglich flektierte Formen werden immer wieder extrahiert

Erst wenn alle Kandidaten auf "Final" gesetzt wurden, kann die Aufgabe abge-schlossen werden und die Terme gehen in den Termbestand über.

Page 13: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 13

II. Ein neuer Begriff

Terminologie 2.0

Page 14: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 14

Terminologie 2.0

Terminologiearbeit wird in den linguistischen Kontext erhoben

Page 15: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 15

Entwicklungen :: neu = linguistisch

Bezogen auf Terminologie-Funktionen: Fuzzy-Suche findet weiterhin statt Fuzzy-Finden findet ebenso weiterhin statt Normalisierung: das ist neu

Bezogen auf Prozessschritte Terminologie-Harvesting

hinzufügen neu = linguistisch basiert

Terminologiearbeit, laufend recht verlässlicher, linguistisch basierter Abgleich gegen den existierenden Bestand

Page 16: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 16

Beispiel [linguistisch]

Term Freq. Status Contexts PoS

Speicher 3 Proposed Speicher noun

Hintergrundbeleuchtung 2 Proposed Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse … noun

Messergebnis 2 Proposed Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse… noun

Arbeitshandschuh 1 Proposed Einfache Bedienung, auch mit Arbeitshandschuhen noun

ATEX-Kennzeichnung 1 Proposed Eigensicher (ATEX-Kennzeichnung [Ex] II 2 G Ex ib IIC T4) noun

Benutzerfreundlichkeit 1 Proposed Benutzerfreundlichkeit noun

Beständigkeit 1 Proposed Geprüfte Beständigkeit der probenberührenden Teile gegen Batteriesäure und sämtliche gängigen… noun

Datenaustausch 1 Proposed IrDA-Schnittstelle für Datenaustausch mit dem PC und Datenexport an den Drucker noun

Datenexport 1 Proposed IrDA-Schnittstelle für Datenaustausch mit dem PC und Datenexport an den Drucker noun

Energiesparmodus 1 Proposed Energiesparmodus noun

Gehäuse 1 Proposed Robustes, dichtes Gehäuse noun

IIC 1 Proposed Eigensicher (ATEX-Kennzeichnung [Ex] II 2 G Ex ib IIC T4) noun

IrDA-Schnittstelle 1 Proposed IrDA-Schnittstelle noun

kabellos 1 Proposed Kabellose adj

LC-Display 1 Proposed Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse noun

Messeinstellung 1 Proposed RFID-Schnittstelle für einfachen Wechsel der Messeinstellungen durch Einlesen von RFID-Tags noun

Messmethoden 1 Proposed Speicher für bis zu 20 Messmethoden noun

probenberührend 1 Proposed Geprüfte Beständigkeit der probenberührenden Teile gegen Batteriesäure und sämtliche gängigen… adj

Probenidentifizierung 1 Proposed Speicher für bis zu 100 Proben-IDs zur einfachen Probenidentifizierung noun

Proben-IDs 1 Proposed Speicher für bis zu 100 Proben-IDs zur einfachen Probenidentifizierung noun

Pumpeneinheit 1 Proposed Einfacher und schneller Austausch der gesamten Pumpeneinheit noun

RFID-Schnittstelle 1 Proposed RFID-Schnittstelle noun

RFID-Tag 1 Proposed RFID-Schnittstelle für einfachen Wechsel der Messeinstellungen durch Einlesen von RFID-Tags noun

Robustheit 1 Proposed Robustheit noun

Sichtbarkeit 1 Proposed Großes LC-Display mit Hintergrundbeleuchtung für optimale Sichtbarkeit der Messergebnisse noun

Sichtfenster 1 Proposed Messzelle mit Sichtfenster und Hintergrundbeleuchtung noun

Stromverbrauch 1 Proposed Energiesparmodus zur Senkung des Stromverbrauchs noun

Zugänglichkeit 1 Proposed Problemloses Messen auch bei schwerer Zugänglichkeit der Proben noun

Page 17: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 17

Workflowszenario [A]

ein repräsentativer Terminologiebestand existiert neue Terminologie entsteht mit neuen Technologien und neuen Produkten Vorschlagsgremium Terminologiekreis

technische Tool-Unterstützung bei einer Extraktion ist nicht zwingend erforderlich Agieren der Prozessbeteiligten in einem TDB-System

TDB

Schritte im Prozess:

1. Kreieren neuer Terme im Terminologiekreis (mindestens Quelle, Kontext, Definition)

2. Übertragung in Zielsprachen3. inhaltliche Freigabe durch z. B. Tochtergesellschaften4. Strukturelle Freigabe im Gesamtbestand

Page 18: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 18

Workflowszenario [B]

Tf(R) = Tf(Ü) =Redakteure sehen Terminologie durch andere Brillen als Übersetzer

Zusätzlich ein Vorschlagswesen seitens des Übersetzers ist sinnvoll. Daher gibt es hier auch: Termharvesting/Termextraktionsprozesse. Schwierigkeit: Termarbeit parallel zum Übersetzungsprozess

zeitkritische Freigabeprozesse potenzielle Inkonsistenzen in Memory und CMS

zusätzlicher Termbestand beim Übersetzungsdienstleister Nutzung des acrolinx-Kontepts non-Terme

TDBTDBTDB

Schritte im Prozess:

1. Kreieren neuer Terme und Zielvorschläge im Übersetzungsprozess

2. Termantrag an Terminologiekreis 3. strukturelle Freigabe oder Abweisung

a) Aufnahme in Gesamtbestandb) Aufnahme in zusätzlichen Termbestand beim Übersetzungsdienstleister

4. ggf. inhaltliche Freigabe durch Tochtergesellschaft

Page 19: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 19

Workflowszenario [C]

es existiert kein repräsentativer Terminologiebestand daher: Termharvesting/Termextraktion Probleme im Ablauf:

Projektlaufzeit Freigabeprozess im Memory abgebildete potenziell ungültige Terminologie dito im CMS

Schritte: Termharvesting/Termextraktion Klassifizieren [zeitextensiv, aber unabdingbar und einmalig] Übertragen Freigeben

Page 20: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 20

III. Ein Blick in die Praxis

Fallstricke

Page 21: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 21

Vorsicht 1

Komplexe Anforderungen wegen mehrerer Systeme: Datenbankstrukturen müssen komplexe Anforderungen über mehrere

Prozesse abbilden Rollen/Rechte-Konzept muss bis auf die Sprachebene geregelt werden Definieren eines Termbanksystems als das führende Definieren von Synchronisierungsmechanismen bzw. Austauschritualen

zwischen den Systemen

Unausweichliche Notwendigkeit eines Terminologiekonzepts:

strukturellen Anforderungen Prozessbeschreibungen Beschreibung der Arbeitsteiligkeiten/Verantwortlichkeiten

Page 22: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 22

Vorsicht 2

Schwierigkeiten im Prozessablauf bei parallelen Termprozessen

geharvestete* Terme, die ganz neu sind geharvestete* Terme, die erfasst sind, aber noch nicht kategorisiert

wurden geharvestete* Terme, die für eine andere Sprachrichtung bereits als

valide Terme kategorisiert wurden und noch keine zielsprachige Entsprechung haben

… müssen gleichzeitig, aber unterschiedlich behandelt werden

* Unwort

Page 23: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 23

Vorsicht 3

Verführerisches Feature Schnelleingabe von Termen *Die Erfassung von Termen direkt aus dem Editor kann in streng konzipierten Prozessen unter Umständen zum ineffizienten Bummerang werden:

Die Auswahl neuer Terme erfolgt seriell. non-Terme werden nicht erfasst. Eine konsequente Erfassung von Terminologie findet also nicht statt

[= valide Terme + Unworte + non-Terme]. Damit ist die Terminologie im acrolinx-Sinne [Terminologie 2.0] nicht

repräsentativ. Da non-Terme nicht bekannt sind, werden bei der Prüfung von Inhalten

potenziell mehr Fehler ausgegeben. Dies kann bei strengen Prozessritualen [Freigabe von Dokumenten auf

der Basis der acrolinx-Bewertung] zu unerwünschten Effekten führen.

* Nachtrag, unter Eindruck der Vorträge aus dem acrolinx-Labor auf der UserKonferenz

Page 24: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 24

IV. Neue Perspektiven

Brücke zur MÜ:Quelltextoptimierung

und maschinelle Übersetzung

Page 25: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 25

Ansätze

regelbasierte MÜ-Systeme * steuerbare Prozesse linguistische Synergien via Terminologie

RS TMSTDB

AATDB

TDB

* Terminologie auch nutzbar in statistisch basierten MÜ-Szenarien, aber mit vergleichsweise geringerem Potenzial zur Prozesssteuerung

Page 26: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 26

Innovation

Forschungsprojekt taraXŰ Prototyp eines selbsttarierenden Übersetzungssystems

automatisierte Übersetzungsprozesse integrierte Quelltextbewertung intelligente Prozesssteuerung Integration von TM-Technologie, regelbasierter MÜ und statistischer MÜ umfangreiche Evaluierungsrunden im Projekt

Konsortium: acrolinx + DFKI + euroscript + yocoy gefördert vom Land Berlin

Page 27: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 27

Fazit

Terminologiearbeit berührt aktuell meist mehrere Bereiche in den komplexen Prozessketten des Managens von Inhalten in einem Unternehmen.

Weitere Ansatzpunkte [MÜ] liegen nahe. Die aktuellen Systeme sind noch nicht für die Abbildung aller

Anforderungen ausgestattet. Daher sind aktuell Architekturen mit mehreren

Terminologiekomponenten durchaus sinnvoll [Schwerpunkt Autorenunterstützung, Schwerpunkt Übersetzungsprozess, Schwerpunkt maschinelle Übersetzung].

Synergien über diese Systeme hinweg können aber bereits jetzt eingelöst werden.

Dies wird die Basis sein für eine technologische Assimilation dieser Ansätze…

… und ein Zusammenwachsen der Systeme.

Page 28: Intelligente Terminologiearbeit an der Quelle Dipl.-Ing. Horst Liebscher. alxUserForum [14.10.2010]

Horst Liebscher, 14.10.2010, alxUserForum Karlsruhe. – v1-0, slide 28

Danke für die Aufmerksamkeit!

[email protected]