EXMARaLDA - ein System zur Diskurstranskription auf dem Computer Thomas Schmidt SFB 538...

Preview:

Citation preview

EXMARaLDA -ein System zur

Diskurstranskriptionauf dem Computer

Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg

Projekt „Mehrsprachige Datenbank“Ziel: Bündeln der am SFB 538 vorhandenen Daten

(zunächst:Transkriptionen gesprochener Sprache):• Vortragsdiskurse / Expertendiskurse (japanisch / deutsch)• Interviews (englisch / Luganda / deutsch)• gedolmetschte Diskurse (deutsch / englisch /

portugiesisch / türkisch / japanisch / französisch)• „freie“ Diskurse (skandinavische Sprachen)• Spracherwerbsdaten (deutsch / französisch / portugiesisch /

baskisch / italienisch / türkisch / spanisch)

Projekt „Mehrsprachige Datenbank“Probleme:

• „variety of tools and formats“• Mischbetrieb (Windows / MAC OS 9.x / Linux)• veraltete Systeme (dBase, DOS-Programme)• stark unterschiedliche Zielsetzungen / theoretische

Hintergründe (generative Grammatik, funktionale Pragmatik etc.)

SyncWriter

• Editor für interlinearen Text („Partitur rein, Partitur raus“)• binäres Dateiformat kaum Export- / Importmöglichkeiten• „Hausgemachte“ Lösung für „Sonderzeichen“ (Schriftsatz

HIAT-Times)• Nur unter MAC OS 9.x und früher

HIAT-DOS

• Partitur-Editor• Darstellungsorientierte Text-Dateien Export- / Import

schwierig• Festbreitenschriftsatz, keine „Sonderzeichen“ (ANSI)• Nur unter DOS

Verbmobil

• Einfache Textdateien „Sonderzeichen“ problematisch (ANSI)• keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B.

Partitur)

ACCESS / LAPSUS (dBase)

• Äußerungsdatenbanken• unkomfortable Eingabe (in Datenbank-Masken)• keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B.

Partitur)• Erweiterung / Anpassung schwierig

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

?

ACCESS / dBase

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

EXMARaLDA-Basis-

Transkription

Eingabe:Partitur-Editor

ACCESS / dBase

Ausgabe:Partitur in

HTML /RTF

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

ACCESS / dBase

Eingabe:Text-Editor

EXMARaLDA-Listen-

Transkription

Ausgabe:

HTML /RTF

EXMARaLDA-Basis-

Transkription

EXMARaLDA - Segmentierte Transkription

Datenbank „Mehrsprachigkeit“

SyncWriter

HIAT-DOS

Verbmobil

SQL-Datenbank

ACCESS / dBase

EXMARaLDA-Listen-

Transkription

EXMARaLDA-Basis-

Transkription

Zusätzliche Annotation

Anforderungen an EXMARaLDA

1. Mindestens: Ersetzen der vorhandenen Systeme, also: Eingabemöglichkeiten: Partitur, Liste Ausgabemöglichkeiten: Partitur, Liste (jeweils auf

Drucker und Bildschirm) Annotationen auf Wort-/Äußerungsebene

(Übersetzung, morphologische Glossen, Phrasenstruktur, ...)

Integration von Audio-/Videodaten Suche auf Annotationen

2. Sprach-/ Software-/ und Plattformunabhängigkeit, Erweiterbarkeit, deshalb: UNICODE, XML, JAVA

Anforderungen an EXMARaLDA

Mindestanforderungen erlauben kaum theoretische Beschränkungen bzgl. des Modells. „universelles“ Modell für Diskurstranskriptionen Annotationsgraphen (Bird/Liberman) zusätzliche Möglichkeiten durch Schnittstellen zu:

anderen Tools, die XML-Daten produzieren (z.B. Transcriber, ANVIL)

anderen Transkriptionssystemen (z.B. GAT, CHAT)

anderen „generischen“ Systemen (z.B. MATE, Talkbank)

EXMARaLDA: bisher fertiggestellte KomponentenDefinition der XML-Kodierung (DTDs):

Basis-Transkription (zeitliche Strukturierung Grundlage für Partitur-Ein-/ und Ausgabe)

Listen-Transkription (zeitliche Strukturierung + Strukturierung nach Sprecherbeiträgen Grundlage für Listen-Ein-/ und Ausgabe)

Segmentierte Transkription (zeitliche + beliebige sprachliche Strukturierung Grundlage für Annotation und zur Archivierung)

Basis-Transkription Listen-Transkription segmentierte Transkription

EXMARaLDA: bisher fertiggestellte KomponentenJAVA-Tools zur Bearbeitung von EXMARaLDA-Daten:

Konvertierung zwischen Basis-/ Listen- und segmentierter Transkription

automatische Segmentierung nach Turns, Äußerungen, Wörtern

JAVA-Tools zur Ausgabe von EXMARaLDA-Daten: Ausgabe als Partitur in HTML oder RTF ( mit

Zeilenumbruch) Ausgabe als Liste

EXMARaLDA: bisher fertiggestellte KomponentenJAVA-Tools zur Eingabe von EXMARaLDA-Daten:

Eingabe als Liste in einer Textdatei (Simple EXMARaLDA)

Import in eine Listen-TranskriptionWeiterbearbeitung mit EXMARaLDA-Tools

Bearbeitung, Ausgabe, Eingabe (Tools ohne GUI) Basis-JAVA-API JAVA-Kommandozeilentools

EXMARaLDA: in Arbeit

JAVA-Tool zur Eingabe von EXMARaLDA-Daten:

Partitur-Editor

EXMARaLDA: in Arbeit

GUI-Tool

Java-Swing API

EXMARaLDA: Ausblick

• Fertigstellung des Partitur-Editors bis Dezember 2001

• Importfilter für syncWriter- und HIAT-DOS-Daten

• Exportfilter für CHAT-Daten

•Annotationstool(s)

• ...

BEISPIEL:

Transkription im PartiturEditor

EXMARaLDA: BASIC-TRANSCRIPTION

AnnotationEXMARaLDA: SEGMENTED-TRANSCRIPTION

EXMARaLDA: LIST-TRANSCRIPTION

CHILDESBearbeiten mit CLAN

Ausgabe als Partitur in RTF

Archivierung in Datenbank

Ausgabe als Liste in HTML

EXMARaLDA -ein System zur

Diskurstranskriptionauf dem Computer

Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg

Recommended