18
Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1 , Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität zu Köln

Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

Embed Size (px)

Citation preview

Page 1: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

Digitalisierung undAufbereitung von Sprachdaten

Stefan Baumann1, Dagmar Jung2 & Doris Mücke1

IfL Phonetik1

IfL Allgemeine Sprachwissenschaft2

Universität zu Köln

Page 2: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

2Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

CCeH Workshop

IT-bezogene Lehre an der Philosophischen Fakultät– Studierende des BA Fachs Linguistik und

Phonetik lernen:

Aufnahme von Sprachdaten (meist digital)

Aufbereitung & Annotation von Sprachdaten

im Labor

im Feld

Page 3: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

3Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

IT-bezogene Kurse BA Linguistik & Phonetik

– Laboratory Phonology (Projektseminar)– Akustische Phonetik (Praxisseminar)– Prosodische Analyse (Grundkurs)– Signalgestütze Transkription (Übung)– Einführung in die Allgemeine

Sprachwissenschaft (Seminar)– Sprachdokumentation (Proseminar)– Diskursanalyse (Hauptseminar)

Page 4: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

4Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

IT-bezogene Kurse zusätzlich:

– Statistik-Kurse in regelmäßigen Abständen (in ASW und Phonetik)

– Programme: R und SPSS

Page 5: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

5Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Sprachaufnahmen Labor I Akustik

– Nutzung von digitalen Aufnahmemöglichkeiten

– Wandlung in verschiedene Datei-Formate• u.a. wav, SSFF

– Pre-processing• Schneiden und Ordnen von Akustik-Dateien• Optimierung für Frequenzanalysen

– Abtastrate: Downsampling (44.1kHz, 20kHz)– Filtern, z.B. Noise-Reduction

Page 6: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

6Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 6Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Sprachverarbeitung Parametrisierung Resynthese als Analysetechnik sprachverarbeitende Software

– Cool Edit, Audacity, PRAAT, EMU– Articulate Assistant, Custom Software

Page 7: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

7Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Beispiel Formantanalyse

richtig

fehlerhaft, F1 wird nicht gefunden

b e n e nn e

Page 8: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

8Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Sprachaufnahmen Labor II Aufnahme von Artikulationsdaten

Elektromagnetische Artikulographie

Elektropalatographie

Page 9: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

9Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Annotation EPG hingeben

– Labeln von Bewegungs-plateaus (Bsp. für partielle Assimilation)

1 23 4

Page 10: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

10Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Annotation EMMA

Page 11: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

11Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 11Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Sprachaufnahmen „im Feld“– Mikrophonierung (nach Aufnahmesituation,

Monolog vs. Konversation, auch wireless)– digitale Aufnahmeformate (Audio und Video)– Aufnahme von „natürlichen Daten“ ->

Unterschiede gesprochene vs. geschriebene Sprache wird durch Transkription und Annotation sichtbar gemacht

– Erstelllung von Annotationen und Korpus z.B. durch ELAN und Toolbox

Page 12: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

12Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 12Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

ELAN

Page 13: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

13Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 13Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Toolbox Datenbank

Textanalyse durch Parsen

Erstellung von Morphemlisten/ Wortlisten/Wörterbüchern

Datenaustausch mit ELAN (Bezug zu Mediadateien bleibt dadurch erhalten)

Page 14: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

14Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 14Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Toolbox

Page 15: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

15Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Zwischen Labor- und Feldforschung Annotation verschiedener Datentypen (auch

Spontansprache)

mehrere linguistische Beschreibungsebenen

– (Morpho-)Syntax: Wortstellung, Part-of-Speech, Definitheit, Satztyp, Fokusoperatoren…

– Semantik/Pragmatik: Fokustyp, Informationsstatus (Referenz- u. lexikalische Ebene)…

– Phonetik/Phonologie: Akzente und Grenztöne, Tonhöhenumfang, Dauern von Silben und Wörtern…

Page 16: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

16Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Zwischen Labor- und Feldforschung

Annotationstool für Darstellung der verschiedenen Ebenen:

EMU Speech Database System (http://emu.sourceforge.net/)

Beispiel Spontansprache:

Page 17: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

17Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Zwischen Labor- und Feldforschung

Page 18: Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann 1, Dagmar Jung 2 & Doris Mücke 1 IfL Phonetik 1 IfL Allgemeine Sprachwissenschaft 2 Universität

18Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Fächerübergreifende Zusammenarbeit Neues DFG-Projekt von Phonetik (Grice)

und Germanistik (Lohnstein); ab 2010

Ein Ziel: Erweiterung der Fokus-DB um mehrebenen-annotierte Daten inklusive Tondateien und Bereitstellung zu Forschungszwecken

– Demo-Version: www.fokus-db.de, Benutzer: „Besucher“, Passwort: „Demo“