28
Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung “Softwarelokalisierung” IIM der FH Köln, 11.-12.03.2005

Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Embed Size (px)

Citation preview

Page 1: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef ReinekeUniversidad de Las Palmas

de Gran Canaria

MARTIF und TBX Austauschformate für

Terminologie

2. Kölner Tagung “Softwarelokalisierung”

IIM der FH Köln, 11.-12.03.2005

Page 2: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 2/27

Übersicht

Vorteile standardisierter Terminologieaustauschformate

Kurzer Rückblick

MARTIF (Machine-readable terminology interchange

format)

TBX (TermBase eXchange Format)

Datenmodellierung und –austausch in Trados MultiTerm

Ausblick

Page 3: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 3/27

Vorteile von Austauschstandards Minimierung kostspieliger Redundanzen

Systemunabhängige Erarbeitung und Vertrieb

(Anbieter)

Angebotserweiterung (Kunde)

Konzentration auf Werkzeugoptimierung

10 Formate = 180 Konvertierungen

100 Formate = 19.800 Konvertierungen

1 Update 10 Formate = 540 Konvertierungen

1 Update 100 Formate = 59.400 Konvertierungen

1 Standardaustauschformat = 20 bzw. 200 Konvertierungen

Page 4: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 4/27

Kurzer Rückblick

MATER (Magnetic Tape Exchange Format for Terminological/Lexicographical Records = ISO 6156:1986) Standard für Datenaustausch zwischen Großrechnern 9-Spur Magnetband Feste Datenstruktur Integration terminologischer UND lexikographischer

Daten

MicroMATER flexibles Format für den Datenaustausch zwischen

Großrechnern, Rechnern der mittleren Datentechnik und Microcomputern (Datenkategorien und –länge flexible)

Page 5: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 5/27

Kurzer Rückblick

TEI (Text Encoding Initiative) Format für Auszeichnung und den Austausch von

Texten Zunächst SGML-basiert (Standard Generalized

Markup Language) inzwischen XML-basiert (eXtensible Markup

Language) TEI.terminology TEI ISO

Page 6: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 6/27

MARTIF (ISO 12200:1999)

Machine-readable terminology interchange format

ISO Technical Committee 37 (Terminology - principles and coordination), Sub-Committee 3 (Computer applications for terminology), Working Group 3 (Data interchange)

Text Encoding Initiative (TEI) und LISA (Localisation Industry Standards Association)

SGML (Standard Generalized Markup Language = ISO 8879)

ISO 649 (7-Bit Zeichensatz = 126 Zeichen) ISO 12620 (1999): “Computer applications in

terminology – Data categories”

Page 7: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 7/27

MARTIF

Grundstruktur

I. PrologII. Document instance (<martif lang=en>)

A. header (<martifHeader>)B. text

1. front (optional)2. body

a. 1st terminological entry <termEntry>

(minimum of one)b. 2nd terminological entry

<termEntry>c. etc. (additional terminological

entries)3. back (optional) (ISO

12200:25)

Page 8: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 8/27

DTD (Document Type Definition)

Definition der Dokumentstruktur (Elemente, Attribute und Beziehungen)

Instrument zur Validierung des MARTIF-Dokuments

I. Prolog

<!DOCTYPE martif PUBLIC “ISO 12200:1999//DTD for MARTIF (framework/ //EN” [

(Definition der Gesamtstruktur: martifHeader, text, front, body, back, …)

<!ENTITY % mtf-body “ISO 12200:1999//DTD for MARTIF (body //EN” >

(Definition der Eintragsstruktur: termEntry, langSet, ntig, termGrp, …)

<!ENTITY % mtf-ents “ISO 12200:1999//ENTITIES for MARTIF (sets //EN” > ] >

(Zeichendefinition)

II. Document instance

MARTIF

Page 9: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 9/27

DTD (Document Type Definition)

<!ELEMENT text - - (front?, body, back?) >

<!ENTITY % AuxInfo ‘descrip │ descripGrp │

admin │ adminGrp │ ptr

│ ref │ date │ note’ > <!ELEMENT body - -

(termEntry+) >

<!ELEMENT termEntry - - ((%AuxInfo;) *, (langSet │

tig │ ntig) +) >

<!ATTLIST target IDREF #IMPLIED >

MARTIF

Page 10: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 10/27

MARTIF

Dokumentinstanz

<martif lang=en><martifHeader>… (Angaben zum gesamten

Datenbestand)</martifHeader><text>

<body>… (terminologische Einträge)</body><back>… (bibliographische Daten)

… (Verweise auf externes Referenzmaterial <xref>)

</back></text>

</martif>(ISO 12200:25)

Page 11: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 11/27

MARTIF

Darstellung der Datenkategorien

Obergruppen von Datenkategorien

<termEntry>, <langSet>, <tig> bzw. <ntig>, <termGrp>

<descrip>, <admin>, <termNote>, etc.

tig = term information group, ntig = nested term information group

Instantiierung der Datenkategorien mittels type-Attribut

<descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip>

<termNote type=‘termType’>synonym</termNote>

Page 12: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 12/27

Datenkategorien und Datenelemente

subject field: Materialbeschaffenheit

term: Opazität

part of speech: Substantiv

grammatical gender: f

definition: Maß für

Lichtundurchlässigkeit

source: DIN 6370:1996-05, S. 383

MARTIF

Page 13: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 13/27

Terminologischer Eintrag

<martif lang=en><martifHeader>… </martifHeader><text><body>

<termEntry id=‘ID0000073578’<descrip type=’subjectField’>Materialbeschaffenheit</descrip><langSet lang=de><ntig><termGrp>

<term>Opazit&auml;t</term> <termNote type=‘partOfSpeech’>Substantiv</termNote>

<termNote type=‘grammaticalGender’>f</termNote> <descripGrp>

<descrip type=‘definition’>Ma&szlig; f&uuml;r die Lichtundurchl&auml;ssigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-

05>S. 383</ref> </descripGrp></ntig></termEntry>

</body></text></martif>

MARTIF

Page 14: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 14/27

Terminologischer Eintrag - Querverweis

…<ntig><termGrp><term>Opazit&auml;t</term> … <descripGrp> <descrip type=‘definition’>Ma&szlig; f&uuml;r die Lichtundurchl&auml;ssigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry></body><back><refObjectList type=‘bibl’><refObject><item id=‘DIN-6370.1996-05’><xref target=‘c:\bibl\normen\DIN-6370\DIN-6370-1996-05.doc</xref></item></refObject></refObjectList></text></martif>

MARTIF

Page 15: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 15/27

MARTIF

“Blind interchange” (Teil 2)

Verlustfreier Austausch terminologischer Daten ohne Absprache

Umstellung auf XML (Unicode, Darstellung in HTML-Umgebung)

Eindeutige Untermenge an Datenkategorien und Inhalten (ISO 12620)

XML-Parser und Validierungswerkzeug für Überprüfung der Datenkategorie-Inhalte

negotiated interchange blind interchange

noun, n., sub, Substantiv n

Page 16: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 16/27

TBX

TermBase eXchange Format

OSCAR-Gruppe (Open Standards for Container/Content Allowing Re-user group) der LISA (Localisation Industry Standards Assocation)

SALT-Projekt (Standards-based Access Service to Multilingual Lexicons and Terminologies)

ISO 16642 (2003): “Computer applications in terminology – Terminological markup framework (TMF)” - Regeln für die Spezifikation terminologischer Markup-Sprachen (TML)

MSC (MARTIF with Specified Constraints) = Blind MARTIF

Page 17: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 17/27

TBX

Metamodell (ISO 16642:18)

Terminological Data Collection (TDC)

Global Information (GI) Complementary Information (CI)

Terminological Entry (TE)

Language Section (LS)

Term Section (TS)

Term Component Section (TCS)

*

*

*

*

Page 18: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 18/27

TBX

Angaben zum Gesamtbestand der terminologischen Datenbank

<?xml version='1.0'?>

<!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD">

<martif type='TBX' xml:lang='en' >

<martifHeader>…

</martifHeader>

<text> <body> ...

? = kann max. einmal vorkommen

+ = kommt min. einmal vor

(LISA 2002:11)

Page 19: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 19/27

TBX

Eintragsebene

? = kann max. einmal vorkommen

+ = kommt min. einmal vor

(LISA 2002:12)

Page 20: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 20/27

TBX

Terminologischer Eintrag

<?xml version='1.0'?><!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"><martif type='TBX' xml:lang='en' >

<martifHeader>…</martifHeader><text><body><termEntry id=‘ID0000073578’<descrip type=’subjectField’>Materialbeschaffenheit</descrip><langSet lang=de><ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die

Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry></body></text></martif>

Page 21: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 21/27

TBX

DTD

Rudimentäre Typendefinition

Keine XML-Auszeichnung

Keine Definition von Namensräumen möglich

Keine Definition fester Wertemengen von Datenkategorien möglich

Empfehlung: XML Schema

Page 22: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 22/27

Trados MultiTerm

≦ MultiTerm 5.5

**<Subject field>Materialbeschaffenheit<de>Opazität<Part of speech>Substantiv<Grammatical gender>f<Definition>Maß für die Lichtundurchlässigkeit<Source> ^DIN 6370:1996-05^, S. 383

…<en> Opacity

Page 23: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 23/27

Trados MultiTerm

≦ MultiTerm 5.5

Flach strukturiertes Exportformat

Keine Zuordnung zu Metamodell bzw. Metadatenkategorien

Beziehungen zwischen den Datenkategorien nicht explizit

Sprach- (langSet) und Termkomponentenebene (termCompList) nicht adäquat darstellbar

Eingeschränkte Zuordnungsmöglichkeit von Attributfeldern

Umständliche Konvertierung über Exportschnittstelle bzw. Zwischenformat

Page 24: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 24/27

Trados MultiTerm

MultiTerm iX

<?xml version="1.0" encoding="UTF-16" ?>- <mtf>- <conceptGrp>… - <descripGrp> <descrip type=“subject

field”>Materialbeschaffenheit</descrip> <descripGrp> - <languageGrp> <language type=“Deutsch”/> - <termGrp> <term>Opazität</term>- <descripGrp> <descrip type=“part of speech”>Substantiv</descrip> <descripGrp>- <descripGrp> <descrip type=“grammatical gender”>f</descrip> <descripGrp>…

Page 25: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 25/27

Trados MultiTerm

MultiTerm iX

Page 26: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 26/27

Metadatenkategorien

TBX vs. MultiTerm iX

MultiTerm iX TBX

<language>

<conceptGrp>

<mtf> <martif>

<termEntry>

<langSet>

<descrip>*

<languageGrp> nicht vorhanden

<termNote>*

* Bezeichnungsebene

nicht vorhanden <ntig>, <tig>

Page 27: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Detlef Reineke 27/27

Fazit

Geringe Implementierung TBX vs. Akzeptanz XLIFF/TMX

TBX-ähnliches Format bisher nur in Trados MultiTerm iX,

SGML-basiertes Format in STAR Termbase

Schnittstellen zu OLIF2, TMX, XLIFF

Offene Detaills (z.B. Standardzeichenkodierung,

Binärdateien)

Feinere Datenkategorien (ISO 12620)

Umstellung auf Standardformate erfordert Zeit, Geld

und Fachwissen

Anpassung der Hochschulstudiengänge (Bologna-

Erklärung)

Page 28: Detlef Reineke Universidad de Las Palmas de Gran Canaria MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung Softwarelokalisierung IIM der

Dr. Detlef ReinekeUniversidad de Las Palmas de Gran CanariaFacultad de Traducción e InterpretaciónC/ Pérez del Toro, 135003 Las Palmas de Gran Canariawww.personales.ulpgc.es/dreineke/dfm

[email protected]

Vielen Dank für Ihre Aufmerksamkeit.