of 40 /40
Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Embed Size (px)

Text of Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS)...

  • Folie 1
  • Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut fr Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8
  • Folie 2
  • Variation in der Wortrealisierung phonologisch phonetisch Modellierung des akustischen Signals Hidden-Markov-Modellierung berblick
  • Folie 3
  • Spracherkennung: Anwendungen Registrierung/Sicherheitssysteme (Banken usw.) Auskunftsysteme (Fahrplan DB) Hands-free telefonieren Gesprochene Eingabe, z.B fr Navigations-systeme Hilfsmittel fr Behinderte Diktiersysteme, z.B. NaturallySpeaking (Dragon/ Scansoft), ViaVoice (IBM), FreeSpeech (Philips)
  • Folie 4
  • Ziel eines ASR-Systems Erkennung einer uerung anhand von: Die Variabilitt im Signal wirkt sich sowohl auf die Signalmodellierung als auch auf das Lexikon aus. Signal Lexikon Sprachmodell Worterkennung
  • Folie 5
  • Phonologische Prozesse knnen dazu fhren, da Wrter nicht immer gleich realisiert werden: Variation in der Wortrealisierung Lauttilgung Epenthese Assimilation
  • Folie 6
  • Lauttilgung (deletion) Ein Laut, der in der sog. kanonischen Form (Lexikonform) vorhanden ist, wird nicht realisiert. Variation in der Wortrealisierung Einst stritten sich der Nordwind und......... Fhrst du mit dem Bus?.....
  • Folie 7
  • Epenthese Ein Laut, der in der sog. kanonischen Form nicht vorhanden ist, wird eingefgt. Variation in der Wortrealisierung im Fahrstuhl: eins ( [aIns] oder [ aInts ]) Pils - Pilz Gans - Ganz
  • Folie 8
  • Variation in der Wortrealisierung
  • Folie 9
  • Assimilation (Angleichung) Die (phonologische) Identitt eines Lautes ndert sich unter Einflu des Kontexts (auch prosodisch bedingt). Variation in der Wortrealisierung unmglich, einbauen aber nicht: umtaufen, umdrehen
  • Folie 10
  • Die durch phonologische Prozesse (Lauttilgung, Epenthese und Assimilation) bedingte Variation kann durch Aussprachevarianten im Lexikon erfasst werden. Variation in der Wortrealisierung
  • Folie 11
  • Das Lexikon und das Sprachmodell, das festlegt, welche Wrter aufeinander folgen knnen (zusammen: top-down Verarbeitung), sorgen dafr, da Ambiguitten in der Signalverar- beitung (bottom-up Verarbeitung) aufgelst werden, oder besser: vorgebeugt werden, denn nur Lautsequenzen, die eine mgliche Reihenfolge von Lexikoneintrgen darstellen, knnen von einem ASR-System erkannt werden. Top-down versus bottom-up
  • Folie 12
  • Ambiguitten in der Signalverarbeitung entstehen durch phonetische Variation, die durch die Koartikulation zwischen Lauten bedingt ist: Variation in der Lautrealisierung ein Laut eine akustische Identitt berlagerung von artikulatorischen Gesten Artikulatorische bergnge
  • Folie 13
  • Variation in der Lautrealisierung ein Laut eine Identitt Beispiel: /h/ kann in unterschiedlichen Kontexten unterschiedlich realisiert werden. Man knnte /h/ als eine stimmlose Realisie- rung der Kontextvokale betrachten. (Spektrogramme ihi, aha, uhu: verschiedene Realisierungen des /h/)
  • Folie 14
  • Variation in der Lautrealisierung i: h a: h h u: [] ] ] [[
  • Folie 15
  • Variation in der Lautrealisierung berlagerung von artikulatorischen Gesten Beispiel: Die artikulatorische Geste fr den Vokal /Y/ wird durch die Geste fr die benachbarten Frikativen ber-lagert. (SpektrogrammDezimalsystem: keine klare Abgrenzung der Laute)
  • Folie 16
  • Variation in der Lautrealisierung det0sima:lzYd0 s t0te:m[] (
  • Folie 17
  • Variation in der Lautrealisierung Artikulatorische bergnge Beispiel: An den Grenzen des Vokals hngt die Realisierung stark von der Artikulation der benachbarten Laute ab. (Spektrogramm aba, ada, aga: Variation innerhalb der Laute)
  • Folie 18
  • Variation in der Lautrealisierung a: b0dg[][[]]d0g0b
  • Folie 19
  • Variation in der Lautrealisierung Menschliche Hrer haben mit der im Signal vorhandenen Variation normalerweise keine Probleme. Fr den Computer ist sie aber eine Herausforde- rung, den die Variation in der Lautrealisierung mu in den akustischen Modellen erfasst werden. Dazu werden statistische Verfahren (meistens hidden Markov Modellierung) verwendet.
  • Folie 20
  • Markov-Modellierung Markov-Modelle bestehen aus Zustnden ("states"), die durch bergnge miteinander verbunden sind. Wenn sich der Automat in einem bestimmten Zustand befindet, emittiert es ein Symbol (z.B. eine akustische Vektor). Die bergnge zwischen den Zustnden sind mit Wahrscheinlichkeiten versehen. Spielen wir erstmal ein einfaches Beispiel durch, in dem die Zustnde Behlter mit farbigen Bllen darstellen. stochastische Modellierung
  • Folie 21
  • MMs: Einfaches Beispiel Man fngt in Zustand S (keine Emission) an und geht von da mit einer Wahrscheinlichkeit von p = 1 zu Zustand 1 weiter. Da nimmt man einen schwarzen Ball aus dem Behlter. S E 1 0.40.3 0.5 0.6 0.5 0.7 123
  • Folie 22
  • MMs: Einfaches Beispiel Danach geht man entweder weiter zum 2. Zustand (p = 0.4) und nimmt einen roten Ball aus dem Behlter oder man geht noch mal zum 1. Behlter und nimmt wieder einen schwarzen Ball. So weiter, bis man in Zustand E landet und eine Reihe von gefrbten Bllen hat. S E 1 0.40.3 0.5 0.6 0.5 0.7 123
  • Folie 23
  • Hidden Markov Modellierung Hidden-Markov-Modelle (HMMs) unterscheiden sich darin von Markov-Modellen, dass die Emissionen nicht unbedingt einem bestimmten Zustand zuzuordnen sind. In unserem Beispiel wre dies der Fall, wenn in allen drei Behltern rote, schwarze und gelbe Blle wren
  • Folie 24
  • Hidden Markov Modellierung Dabei kann das Verhltnis der farbigen Bllen in den Behltern unterschiedlich sein, so dass die Farbemissionen in den drei Zustnden unterschiedliche Wahrscheinlichkeiten haben.
  • Folie 25
  • HMMs: Einfaches Beispiel Man fngt in Zustand S (keine Emission) an und geht von da mit einer Wahrscheinlichkeit von p = 1 zu Zustand 1 weiter. Da nimmt man einen Ball aus dem Behlter, der jetzt aber schwarz, rot oder gelb sein kann. S E 1 0.40.3 0.5 0.6 0.5 0.7 123
  • Folie 26
  • HMMs: Einfaches Beispiel Danach geht man entweder weiter zum 2. Zustand (p = 0.4) und nimmt einen Ball aus dem Behlter oder man geht noch mal zum 1. Behlter und nimmt da noch mal einen Ball. So weiter, bis man in Zustand E landet und eine Reihe von gefrbten Bllen hat. S E 1 0.40.3 0.5 0.6 0.5 0.7 123
  • Folie 27
  • HMMs: verborgene Zustnde Wenn jetzt eine Reihe von farbigen Bllen vorliegt, kann man nicht mehr eindeutig erkennen, in welchem Zustand (aus welchem Behlter) man die einzelnen Blle genommen hat. Die Zustnde sind verborgen, deswegen Hidden-Markov- Modellierung. 11 1112222333 111222223333 usw.
  • Folie 28
  • HMMs: Spracherkennung Reihe von farbigen Bllen = akustische Frames mit Parametervektoren. Die Aufgabe fr den Spracherkenner ist es, fr eine vorliegende uerung zu erkennen, welche Abfolge von Zustnden die Frames am wahrscheinlichsten emittiert hat. Das wird durch die Transitions- und Emissionswahrscheinlichkeiten bestimmt.
  • Folie 29
  • HMMs: bergange In der Spracherkennung werden links-rechts- Modelle verwendet (wie vorher gezeichnet), weil die akustischen Ereignisse in der Zeit geordnet sind. So werden Vokale z.B. oft betrachtet als eine Sequenz von Anfangs-transition, steady state und Endtransition. Wenn ein Modell fr Pausen trainiert wird, werden meist bergange von jedem Zustand zu jedem anderen erlaubt, da es keinen vorgegebenen Ablauf von akustischen Ereignissen gibt (ergodisch).
  • Folie 30
  • HMMs: Emissionen Emissionen knnen beschrieben werden mit: Vektorcodebook: Eine feste Anzahl von quantisierten akustischen Vektoren werden verwendet. Sie werden durch Beobachtungs- wahrscheinlichkeiten bestimmten Zustnden zugeordnet. Gauss'sche Verteilungen: Die Variation in der akustischen Realisierung in einem Zustand wird mittels einer Normalverteilung beschrieben.
  • Folie 31
  • HMMs: komplexere Modelle Es werden auch komplexere Modelle benutzt : parallele Zustnde und multiple mixtures knnen Variationen in der Lautrealisierung ( Sprecher, Dialekt, Kontext, usw.) besser beschreiben. Gauss'sche Mixturen: die systematische Variation in der akustischen Realisierung von einem Zustand wird mittels mehrerer Normalverteilungen beschrieben.
  • Folie 32
  • HMMs: Datenarmut? Generalisierte Triphone beschreiben einen Laut in unterschiedlichen Kontexten, wobei die Kontexten gruppiert sind (z.B. nach Artikulationsstelle oderdata-driven nach akustischen Eigenschaften). So werden die Anforderungen an der Gre des Trainingkorpus reduziert.
  • Folie 33
  • HMMs: Spracherkennung Es kann mehrere Abfolgen von Zustnden geben, die das vom gleichen Signal (Framefolge) folgen knnen. Die Zustandfolge mit der hchsten Wahrscheinlichkeit wird gesucht (dazu wird der sog. Viterbi-Algorithmus verwendet). Dies gilt fr alle HMMs: Die Zustandsequenz, die die hchste Wahrscheinlichkeit hat, wird erkannt.
  • Folie 34
  • HMMs: Lexikon & Sprachmodell Mit HMM kann man heutzutage kontinuierliche Spracherkennung durchfhren. Dazu braucht man, auer akustischen (Hidden-Markov-) Modellen, auch ein Lexikon und ein Sprachmodell. Im Lexikon werden alle Wrter (oder Morpheme) aufgelistet, die das System erkennen soll. Im Sprachmodell werden alle mgliche Kombi- nationen von Eintrgen im Lexikon festgelegt.
  • Folie 35
  • HMMs: Lexikon Die Eintrge im Lexikon bestehen meist aus einem orthographischen Wort und seiner Realisierung als Folge von HMMs fr Laute. Um Variationen in der Aussprache von Wrtern besser zu bewltigen, werden manchmal im Lexikon auch Aussprachevarianten geschrieben, in denen Reduktionen, Einfgungen und Assimilationen bercksichtigt werden. Sie sorgen dafr, da der Abstand zwischen akustischer Realisierung und Eintrag geringer sind.
  • Folie 36
  • HMMs: Lexikon Dafr wird auch der Abstand zwischen den Lexikoneintrgen geringer, was wieder zu Verwechslungen fhren kann. Deswegen werden oft nur die hufigsten Aussprachevarianten, z.B. fr Funktionswrter, bercksichtigt, um die Erkennung zu verbessern.
  • Folie 37
  • HMMs: Sprachmodell Das Sprachmodell kann entweder als Regelsystem (linguistische Grammatik) oder als probabilistisches System implementiert werden. Regelsysteme haben den Vorteil, das sie zu einem besseren Verstndnis der linguistischen Eigenschaften von uerungen fhren (genau so wie kenntnisbasierte Lauterkennung zu einem besseren Verstndnis der phonetischen Eigenschaften von Lauten fhren kann).
  • Folie 38
  • HMMs: Sprachmodell Probabilistische Systeme modellieren dagegen realisierte uerungen. Sie berechnen Wahrscheinlichkeiten fr die bergnge zwischen Lexikoneintrge. Sie sind weniger generalisierend, brauchen dafr groe Datenmengen als Trainingsmaterial. Angenommen, dass die Testbedingungen gut mit den Trainingsdaten bereinstimmen (Textsorte, lexikalische Domne, usw.) beschreiben sie aber sehr genau das beobachtete Sprecherverhalten.
  • Folie 39
  • Literaturangaben: Van Alphen, P. und D. van Bergem (1989). Markov models and their application in speech recognition, Proceedings Institute of Phonetic Sciences, University of Amsterdam 13, 1-26. Holmes, J. (1988). Speech Synthesis and Recognition (Kap. 8). Wokingham (Berks.): Van Nostrand Reinhold, 129-152. Holmes, J. (1991). Spracherkennung und Sprachsynthese (Kap. 8). Mnchen: Oldenburg.
  • Folie 40
  • Literaturangaben: Cox, S. (1988). Hidden Markov models for automatic speech recognition: theory and application, Br. Telecom techn. Journal 6(2), 105- 115. Lee, K.-F. (1989). Hidden Markov modelling: past, present, future, Proc. Eurospeech 1989, vol. 1, 148-155.