21
EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Ham

EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Embed Size (px)

Citation preview

Page 1: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA -ein System zur

Diskurstranskriptionauf dem Computer

Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg

Page 2: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Projekt „Mehrsprachige Datenbank“Ziel: Bündeln der am SFB 538 vorhandenen Daten

(zunächst:Transkriptionen gesprochener Sprache):• Vortragsdiskurse / Expertendiskurse (japanisch / deutsch)• Interviews (englisch / Luganda / deutsch)• gedolmetschte Diskurse (deutsch / englisch /

portugiesisch / türkisch / japanisch / französisch)• „freie“ Diskurse (skandinavische Sprachen)• Spracherwerbsdaten (deutsch / französisch / portugiesisch /

baskisch / italienisch / türkisch / spanisch)

Page 3: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Projekt „Mehrsprachige Datenbank“Probleme:

• „variety of tools and formats“• Mischbetrieb (Windows / MAC OS 9.x / Linux)• veraltete Systeme (dBase, DOS-Programme)• stark unterschiedliche Zielsetzungen / theoretische

Hintergründe (generative Grammatik, funktionale Pragmatik etc.)

Page 4: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

SyncWriter

• Editor für interlinearen Text („Partitur rein, Partitur raus“)• binäres Dateiformat kaum Export- / Importmöglichkeiten• „Hausgemachte“ Lösung für „Sonderzeichen“ (Schriftsatz

HIAT-Times)• Nur unter MAC OS 9.x und früher

Page 5: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

HIAT-DOS

• Partitur-Editor• Darstellungsorientierte Text-Dateien Export- / Import

schwierig• Festbreitenschriftsatz, keine „Sonderzeichen“ (ANSI)• Nur unter DOS

Page 6: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Verbmobil

• Einfache Textdateien „Sonderzeichen“ problematisch (ANSI)• keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B.

Partitur)

Page 7: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

ACCESS / LAPSUS (dBase)

• Äußerungsdatenbanken• unkomfortable Eingabe (in Datenbank-Masken)• keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B.

Partitur)• Erweiterung / Anpassung schwierig

Page 8: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

?

ACCESS / dBase

Page 9: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

EXMARaLDA-Basis-

Transkription

Eingabe:Partitur-Editor

ACCESS / dBase

Ausgabe:Partitur in

HTML /RTF

Page 10: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

ACCESS / dBase

Eingabe:Text-Editor

EXMARaLDA-Listen-

Transkription

Ausgabe:

HTML /RTF

EXMARaLDA-Basis-

Transkription

Page 11: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA - Segmentierte Transkription

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

ACCESS / dBase

EXMARaLDA-Listen-

Transkription

EXMARaLDA-Basis-

Transkription

Zusätzliche Annotation

Page 12: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Anforderungen an EXMARaLDA

1. Mindestens: Ersetzen der vorhandenen Systeme, also: Eingabemöglichkeiten: Partitur, Liste Ausgabemöglichkeiten: Partitur, Liste (jeweils auf

Drucker und Bildschirm) Annotationen auf Wort-/Äußerungsebene

(Übersetzung, morphologische Glossen, Phrasenstruktur, ...)

Integration von Audio-/Videodaten Suche auf Annotationen

2. Sprach-/ Software-/ und Plattformunabhängigkeit, Erweiterbarkeit, deshalb: UNICODE, XML, JAVA

Page 13: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

Anforderungen an EXMARaLDA

Mindestanforderungen erlauben kaum theoretische Beschränkungen bzgl. des Modells. „universelles“ Modell für Diskurstranskriptionen Annotationsgraphen (Bird/Liberman) zusätzliche Möglichkeiten durch Schnittstellen zu:

anderen Tools, die XML-Daten produzieren (z.B. Transcriber, ANVIL)

anderen Transkriptionssystemen (z.B. GAT, CHAT)

anderen „generischen“ Systemen (z.B. MATE, Talkbank)

Page 14: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA: bisher fertiggestellte KomponentenDefinition der XML-Kodierung (DTDs):

Basis-Transkription (zeitliche Strukturierung Grundlage für Partitur-Ein-/ und Ausgabe)

Listen-Transkription (zeitliche Strukturierung + Strukturierung nach Sprecherbeiträgen Grundlage für Listen-Ein-/ und Ausgabe)

Segmentierte Transkription (zeitliche + beliebige sprachliche Strukturierung Grundlage für Annotation und zur Archivierung)

Basis-Transkription Listen-Transkription segmentierte Transkription

Page 15: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA: bisher fertiggestellte KomponentenJAVA-Tools zur Bearbeitung von EXMARaLDA-Daten:

Konvertierung zwischen Basis-/ Listen- und segmentierter Transkription

automatische Segmentierung nach Turns, Äußerungen, Wörtern

JAVA-Tools zur Ausgabe von EXMARaLDA-Daten: Ausgabe als Partitur in HTML oder RTF ( mit

Zeilenumbruch) Ausgabe als Liste

Page 16: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA: bisher fertiggestellte KomponentenJAVA-Tools zur Eingabe von EXMARaLDA-Daten:

Eingabe als Liste in einer Textdatei (Simple EXMARaLDA)

Import in eine Listen-TranskriptionWeiterbearbeitung mit EXMARaLDA-Tools

Bearbeitung, Ausgabe, Eingabe (Tools ohne GUI) Basis-JAVA-API JAVA-Kommandozeilentools

Page 17: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA: in Arbeit

JAVA-Tool zur Eingabe von EXMARaLDA-Daten:

Partitur-Editor

Page 18: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA: in Arbeit

GUI-Tool

Java-Swing API

Page 19: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA: Ausblick

• Fertigstellung des Partitur-Editors bis Dezember 2001

• Importfilter für syncWriter- und HIAT-DOS-Daten

• Exportfilter für CHAT-Daten

•Annotationstool(s)

• ...

Page 20: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

BEISPIEL:

Transkription im PartiturEditor

EXMARaLDA: BASIC-TRANSCRIPTION

AnnotationEXMARaLDA: SEGMENTED-TRANSCRIPTION

EXMARaLDA: LIST-TRANSCRIPTION

CHILDESBearbeiten mit CLAN

Ausgabe als Partitur in RTF

Archivierung in Datenbank

Ausgabe als Liste in HTML

Page 21: EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538 „Mehrsprachigkeit“ Universität Hamburg

EXMARaLDA -ein System zur

Diskurstranskriptionauf dem Computer

Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg