Upload
magdalena-schleper
View
108
Download
2
Embed Size (px)
Citation preview
Segmentieren von EXMARaLDA-Daten
Workshop Dortmund 2003Thomas Schmidt, SFB 538
EXMARaLDA
Zeitliche und sprachliche Struktur
Partitur und Listen
Parsen von Zeichenketten
Implizite Struktur (Äußerungsendzeichen) Explizite Struktur (computer-verwertbare Einheiten)
Segmentieren im syncWriter
Segmentierung nur nach einer Einheit (i.d.R. Äußerungen)
Entweder Partitur oder Liste
Segmentierungs-Algorithmus ist in der Software verborgen
Segmentieren in EXMARaLDA
Segmentierung nach mehreren Einheiten (Turns, Äußerungen, Wörter, nicht-phonologische Daten, Interpunktion)
Partitur und Liste(n) und Segmentierte Transkription (Datenbank!)
Segmentierung durch Endliche Maschine (Finite State Machine)
Segmentieren in EXMARaLDA
Basis-Transkription (Partitur-Editor)
XML
SegmentierteTranskription(Datenbank)XML
Finite State MachineXMLFSM
Finite State Machine
Formales Fundament (Reguläre Grammatiken, Reguläre Ausdrücke, Endliche Automaten, ...)
Einfachheit Flexibilität Entkopplung vom Rest
der Software (Formuliert als XML-Datei)
Menü „Segmentation“ im Partitur-Editor
Segmentation-Panel im Partitur-Editor
To Do
Testen, Debuggen und Anpassen der FSM zum Segmentieren von HIAT-Daten
Formalisieren der Vorschriften zur Verwendung von Interpunktion (cf. Äußerungsendzeichen in Rehbein et al. 1993) Anpassen der HIAT-Konventionen
Parametrisieren des Segmentierungsprozesses
Segmentierungsparameter
Äußerungsendzeichen: ? ... ! . Übrige Interpunktion: ; / , : „“ Leerzeichen Pausenpunkt(e): · Parenthesen: ( )
Segmentierungsparameter
HIAT: „Turn“ Äußerung Wort, Nicht-
phonologisches Datum SFB-Projekt E3:
„Turn“ Äußerung Wort Silbe GAT:
„Turn“ Phrasierungseinheit Wort, Nicht-phonologisches Datum
DIDA „Turn“ Wort, „Nicht-morphemisierte
Äußerung“