14
Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Embed Size (px)

Citation preview

Page 1: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Segmentieren von EXMARaLDA-Daten

Workshop Dortmund 2003Thomas Schmidt, SFB 538

Page 2: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

EXMARaLDA

Page 3: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Zeitliche und sprachliche Struktur

Page 4: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Partitur und Listen

Page 5: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Parsen von Zeichenketten

Implizite Struktur (Äußerungsendzeichen) Explizite Struktur (computer-verwertbare Einheiten)

Page 6: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Segmentieren im syncWriter

Segmentierung nur nach einer Einheit (i.d.R. Äußerungen)

Entweder Partitur oder Liste

Segmentierungs-Algorithmus ist in der Software verborgen

Page 7: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Segmentieren in EXMARaLDA

Segmentierung nach mehreren Einheiten (Turns, Äußerungen, Wörter, nicht-phonologische Daten, Interpunktion)

Partitur und Liste(n) und Segmentierte Transkription (Datenbank!)

Segmentierung durch Endliche Maschine (Finite State Machine)

Page 8: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Segmentieren in EXMARaLDA

Basis-Transkription (Partitur-Editor)

XML

SegmentierteTranskription(Datenbank)XML

Finite State MachineXMLFSM

Page 9: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Finite State Machine

Formales Fundament (Reguläre Grammatiken, Reguläre Ausdrücke, Endliche Automaten, ...)

Einfachheit Flexibilität Entkopplung vom Rest

der Software (Formuliert als XML-Datei)

Page 10: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Menü „Segmentation“ im Partitur-Editor

Page 11: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Segmentation-Panel im Partitur-Editor

Page 12: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

To Do

Testen, Debuggen und Anpassen der FSM zum Segmentieren von HIAT-Daten

Formalisieren der Vorschriften zur Verwendung von Interpunktion (cf. Äußerungsendzeichen in Rehbein et al. 1993) Anpassen der HIAT-Konventionen

Parametrisieren des Segmentierungsprozesses

Page 13: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Segmentierungsparameter

Äußerungsendzeichen: ? ... ! . Übrige Interpunktion: ; / , : „“ Leerzeichen Pausenpunkt(e): · Parenthesen: ( )

Page 14: Segmentieren von EXMARaLDA-Daten Workshop Dortmund 2003 Thomas Schmidt, SFB 538

Segmentierungsparameter

HIAT: „Turn“ Äußerung Wort, Nicht-

phonologisches Datum SFB-Projekt E3:

„Turn“ Äußerung Wort Silbe GAT:

„Turn“ Phrasierungseinheit Wort, Nicht-phonologisches Datum

DIDA „Turn“ Wort, „Nicht-morphemisierte

Äußerung“