26
Mitglied der Leibniz- Gemeinschaft Token-Annotation im FOrschungs- und LehrKorpus Gesprochenes Deutsch Thomas Schmidt, IDS Mannheim [email protected]

Mitglied der Leibniz-Gemeinschaft Token-Annotation im FO rschungs- und L ehr K orpus Gesprochenes Deutsch Thomas Schmidt, IDS Mannheim [email protected]

Embed Size (px)

Citation preview

  • Folie 1
  • Folie 2
  • Mitglied der Leibniz-Gemeinschaft Token-Annotation im FO rschungs- und L ehr K orpus Gesprochenes Deutsch Thomas Schmidt, IDS Mannheim [email protected]
  • Folie 3
  • Mitglied der Leibniz-Gemeinschaft FOLK Forschungs- und Lehrkorpus gesprochenes Deutsch Groes, breit stratifiziertes, computergesttzt verarbeitbares, ffentlich verfgbares Korpus deutscher Gesprche Seit 2008 am IDS Erstes offizielles Release: Dezember 2012 als Bestandteil der Datenbank Gesprochenes Deutsch (DGD2) Anfang 2014: Ca. 100h Audio-Aufnahmen, ca. 1 Millionen transkribierte Wort-Tokens Weiter im Aufbau
  • Folie 4
  • Mitglied der Leibniz-Gemeinschaft Gliederung (semi-)automatisierte Normalisierung literarischer Umschrift in FOLK Literarische Umschrift Orthographische Normalisierung Automatisierung / Evaluation Verbesserungsmglichkeiten (semi-)automatisiertes POS-Tagging von Transkriptionen
  • Folie 5
  • Mitglied der Leibniz-Gemeinschaft Literarische Umschrift = Reprsentation von Mndlichkeit, so wie in der (schnen) Literatur blich Sei glcklich, du gutes Kend [Sesemi Weichbrodt, Buddenbrooks] Zwirner/Bethge (1958): Deutsche Mundarten Ehlich/Rehbein (1976): Halbinterpretative Arbeitstranskriptionen Selting et. al. (1998): Gesprchsanalytisches Transkriptionssystem Modified Orthography, Eye dialect, Orthographe adapte I wuz de ony one dat had much. So I stuck out for mo dan fo dollars, en I said [][Jim, Adventures of Huckleberry Finn] b'jour, chais pas[Convention ICOR, CLAPI Lyon]
  • Folie 6
  • Mitglied der Leibniz-Gemeinschaft Literarische Umschrift
  • Folie 7
  • Mitglied der Leibniz-Gemeinschaft Literarische Umschrift Ellisionen Verschleifungen Assimilationen dialektale Frbungen generelle Kleinschreibung
  • Folie 8
  • Mitglied der Leibniz-Gemeinschaft Literarische Umschrift Warum nicht Standardorthographie? relevante Charakteristika der Mndlichkeit (hist.) visuelle Abgrenzung von geschriebenem Text Warum nicht phonetische Umschrift? Arbeitskonomie Zugnglichkeit / Lesbarkeit Verlust morphologischer/lexikalischer Systematik
  • Folie 9
  • Mitglied der Leibniz-Gemeinschaft Literarische Umschrift Bewusstes Abweichen von schriftsprachlichen Standards Regelgeleitet? Von der Orthographie soll [] abgewichen werden, wo der gesprochene Laut durch einen anderen Buchstaben [] besser wiedergegeben wird [Zwirner/Bethge 1958] standardsprachliche Realisierungen Standardorthographie, nicht-standardsprachliche Realisierungen literarische Umschrift [] abweichende Ausdrcke werden [] nachgebildet, wenn sie vereinzelt auftreten [], allgemein verbreitete Phnomene [] werden nicht notiert [Rehbein et al. 1993] Beispiellisten bei HIAT, GAT, Verbmobil (sddeutsch) [lustik] lustig? lustick? lustik? (norddeutsch) [stain] ???
  • Folie 10
  • Mitglied der Leibniz-Gemeinschaft Warum normalisieren? Vorhersagbarkeit bei Suchen nein, nee, na, ne, neeh, nehee, n, nh, n bleibsch, bleibscht, gebliewe, gebliwwe Anwendung von NLP-Methoden Lemmatisierung POS-Tagging syntaktische Annotation etc.
  • Folie 11
  • Mitglied der Leibniz-Gemeinschaft FOLK-Annotationsebenen Maskierung Transkription / Kontrolle Normalisierung POS-Tagging 2h-10h 30h-80h 1h-3h 2h-4h Transkriptiondagehstdejetzeinfachberdembild NormalisierungdagehstdujetzteinfachberdemBild LemmatisierungdagehendujetzteinfachberdBild POSADVVFINPPERADVADJDAPPRARTNN Korrekturen Effektivierung des Workflows: Beschleunigung Vereinfachung
  • Folie 12
  • Mitglied der Leibniz-Gemeinschaft Normalisierungsregeln Interpretationsarme Annherung an Standardorthographie Normalisierung auf Ebene von Lexikon und Morphosyntax, keine syntaktischen oder stilistischen Korrekturen Orientierung am DUDEN, bei gleichberechtigten Schreibweisen (Spaghetti vs. Spagetti) redaktionell bevorzugte Varianten Explizite Regelungen fr Interjektionen: Hsitationen, Rezeptionssignale, Frageanhngsel etc. Unvollstndige Formen: (rekonstruierbare vs. nicht rekonstruierbare) Abbrche, fragmentierte Wrter Umgangssprachliche Verkrzungen Diskussion und Dokumentation von Einzelfallentscheidungen Konsistenz
  • Folie 13
  • Mitglied der Leibniz-Gemeinschaft Normalisierungsregeln Zweifelsflle Rekonstruktion von Abbrchen Kontraktionen hammers haben wir es kannst kannst Du? durchs durch das zum zu dem?[ugs.]? / Frequenz?
  • Folie 14
  • Mitglied der Leibniz-Gemeinschaft Evaluation 22 manuell normalisierte Transkriptionen aus FOLK 61.495 Wort-Tokens, 6.219 Wort-Types Quote: 29.89% / max. 42.45% / min. 20.93% Hufige Typen: Klein- Groschreibung: 12.99% Ergnzung / Klassifizierung unvollstndiger Formen: 6.49% Hsitation (hm h): 1.46% 18 Trainings- / 4 Evaluationsdaten
  • Folie 15
  • Mitglied der Leibniz-Gemeinschaft Automatisierung Lexikonbasiert Transkribierte Form W mehr als n-mal zu Form W normalisiert Zuweisung von Form W Nur grogeschriebene Variante in DeReWo Groschreibung
  • Folie 16
  • Mitglied der Leibniz-Gemeinschaft Automatisierung SchwellenwertPrecisionRecallError 186.76%84.14%17.80% 587.81%77.50%16.67% 1087.89%74.30%16.41% 5092.53%61.70%11.89% 10091.75%53.88%12.71% hhere Przision inakzeptabler Recall deutliche Erleichterung der manuellen Korrektur mehr Lexikondaten Erhhung von Precision und Recall? keine Annherung an 100%
  • Folie 17
  • Mitglied der Leibniz-Gemeinschaft Phnomenologie: Lexikon Eindeutige Flle Mehrdeutige Flle heutheute67 mein 115 meine39 meinen2 meiner1 fragfrage19 frag2 Frage1 sacheSache19 sagen16 Sachen1 mamal280 man221 wir123 %3 #2 ma2 mir2 Mama1 mach1 machen1 meinst1 hallgewersignalHallgebersignal3 aa109 ah17 auch8 aber7 an5 ach2 acht2 also2 abgestanden1 akut1 alles1 als1
  • Folie 18
  • Mitglied der Leibniz-Gemeinschaft Phnomenologie: Lexikon Regelmigkeiten abbaueabbauen2 abgezogeabgezogen2 abklopfeabklopfen2 absetzeabsetzen1 abstelleabstellen1 abwendeabwenden1 abzieheabziehen1 achteachten1 altealten1 andereanderen3 anfangeanfangen1 angebeangeben1 angesprocheangesprochen1 anrufeanrufen1 abziehabziehe2 akzeptierakzeptiere1 allalle1 anfanganfange1 anhabanhabe1 aufmachaufmache1 baubaue1 bedankbedanke1 behandelbehandele1 beinahbeinahe1 bekommbekomme1 bereubereue1 bestellbestelle3 besuchbesuche1 bleibbleibe2 brauchbrauche33
  • Folie 19
  • Mitglied der Leibniz-Gemeinschaft Phnomenologie: Lexikon hnlichkeiten abber aber ankucken angucken gsagt gesagt hintn hinten isch ich odder oder sauwer sauber schaun schauen spieln spielen verdrehn verdrehen warn waren widder wieder wrdst wrdest zusammenarbeiden zusammenarbeiten zusammengearbeidet zusammengearbeitet (Levenshtein-Distanz) ansonschtenansonsten aufgawestellungAufgabenstellung besserwischerischbesserwisserisch bltterteigstckscheBltterteigstckchen eklichemekligem geschebergegenber geschterngestern hihngehinhngen karteikardeKarteikarten linsensupLinsensuppe nkschtennchsten runnerguggeruntergucken sptdienschSptdienst wollisWallace (Phonetische Distanz)
  • Folie 20
  • Mitglied der Leibniz-Gemeinschaft Phnomenologie: Fehler kannslosgehnalsoihrsolltaujetztganznormalreden eslosgehenauch es sollteauch undanngehstebiszurhhedestoastersbeidembildranddestoastersnstckchen undgehst duzu derHheToastersBildrandToasterseinStckchen undgehst duzu derHhedas Bildranddas einStckchen dasonmannmitnstckfleisch einManneinemStckFleisch einManneinStckFleisch wattemawattemawosollichlang wartemalwartemal WattemalWattemal
  • Folie 21
  • Mitglied der Leibniz-Gemeinschaft Verbesserung der automatischen Normalisierung Ermittlung von Kandidaten (Recall) Abgleich mit bereits normalisierten Formen Abgleich mit Wortliste (DeReWo) Ermittlung von mglichen Normalisierungen aus bereits normalisierten Formen hnliche Formen aus Wortliste (Regeln: n-Ellision, e-Ellision)? Entscheidung zwischen Alternativen (Precision) einfache Hufigkeiten aus FOLK einfache Hufigkeiten aus anderen Korpora? (kombinatorische Hufigkeiten)?
  • Folie 22
  • Mitglied der Leibniz-Gemeinschaft In Wortliste? Bereits normalisiert? nein ja DeReWo etc. ja nein FOLK-Lexikon keine Normalisierung Transkribierte Form Kandidatenliste Normalisierte Form(en) Hufigkeit in FOLK hnliche Form(en) Hufigkeit in DeReKo Auswahl Normalisierte Form n-gram-Hufigkeiten? Manuelle Korrektur (OrthoNormal)
  • Folie 23
  • Mitglied der Leibniz-Gemeinschaft Effektivierung der manuellen Korrektur
  • Folie 24
  • Mitglied der Leibniz-Gemeinschaft Test: POS-Tagging TreeTagger / STTS / Default-Parameterdatei 3 manuell korrigierte Transkripte aus Testdatensatz Fehlerquoten: Transkript1Transkript2Transkript3Gesamt literarische Umschrift 33.22%29.96%31.33%31.39% normalisiert 18.79%18.62%19.5%18.84% (optimiert) 13.38%11.52%16.13% (vereinfacht) 8.7%7.5%11.9%
  • Folie 25
  • Mitglied der Leibniz-Gemeinschaft POS-Tagging: aktuelle Arbeiten Erweiterung/Anpassung des STTS-Tagsets: Interaktive Einheiten: Responsive, Interjektionen Partikeln Koordiniert mit STTS-Workshops / Arbeiten zu IBK Erstellen eines Trainings- und Evaluationskorpus Neu-Training des TreeTaggers / andere Tagger (?) Westpfahl/Schmidt (2013): POS fr(s) FOLK. In: JLCL.
  • Folie 26
  • Mitglied der Leibniz-Gemeinschaft Zusammenfassung Brauchbare Automatisierung durch lexikonbasierte Verfahren Annherung an 100% vorerst nicht realistisch Weitere Verbesserungen mglich durch grere/andere Lexika Ermitteln hnlicher Formen als Kandidaten verfeinerte Methoden zur Auswahl des besten Kandidaten Effektivierung manueller Korrektur
  • Folie 27
  • Mitglied der Leibniz-Gemeinschaft Ausblick Anwenderbedarf Sprachtechnologie/Ressourcen zur Verbesserung der Normalisierung? hnliche Wrter (phonetische, orthographische Distanz) N-gramm-Methoden Support Web-Service Normalisierung? OrthoNormal fr IBK-Daten (Dortmunder Chat-Korpus)? WebLicht fr Transkriptionen?