Ziel eines ASR-Systems Erkennung einer uerung anhand von: Die
Variabilitt im Signal wirkt sich sowohl auf die Signalmodellierung
als auch auf das Lexikon aus. Signal Lexikon Sprachmodell
Worterkennung
Folie 5
Phonologische Prozesse knnen dazu fhren, da Wrter nicht immer
gleich realisiert werden: Variation in der Wortrealisierung
Lauttilgung Epenthese Assimilation
Folie 6
Lauttilgung (deletion) Ein Laut, der in der sog. kanonischen
Form (Lexikonform) vorhanden ist, wird nicht realisiert. Variation
in der Wortrealisierung Einst stritten sich der Nordwind
und......... Fhrst du mit dem Bus?.....
Folie 7
Epenthese Ein Laut, der in der sog. kanonischen Form nicht
vorhanden ist, wird eingefgt. Variation in der Wortrealisierung im
Fahrstuhl: eins ( [aIns] oder [ aInts ]) Pils - Pilz Gans -
Ganz
Folie 8
Variation in der Wortrealisierung
Folie 9
Assimilation (Angleichung) Die (phonologische) Identitt eines
Lautes ndert sich unter Einflu des Kontexts (auch prosodisch
bedingt). Variation in der Wortrealisierung unmglich, einbauen aber
nicht: umtaufen, umdrehen
Folie 10
Die durch phonologische Prozesse (Lauttilgung, Epenthese und
Assimilation) bedingte Variation kann durch Aussprachevarianten im
Lexikon erfasst werden. Variation in der Wortrealisierung
Folie 11
Das Lexikon und das Sprachmodell, das festlegt, welche Wrter
aufeinander folgen knnen (zusammen: top-down Verarbeitung), sorgen
dafr, da Ambiguitten in der Signalverar- beitung (bottom-up
Verarbeitung) aufgelst werden, oder besser: vorgebeugt werden, denn
nur Lautsequenzen, die eine mgliche Reihenfolge von Lexikoneintrgen
darstellen, knnen von einem ASR-System erkannt werden. Top-down
versus bottom-up
Folie 12
Ambiguitten in der Signalverarbeitung entstehen durch
phonetische Variation, die durch die Koartikulation zwischen Lauten
bedingt ist: Variation in der Lautrealisierung ein Laut eine
akustische Identitt berlagerung von artikulatorischen Gesten
Artikulatorische bergnge
Folie 13
Variation in der Lautrealisierung ein Laut eine Identitt
Beispiel: /h/ kann in unterschiedlichen Kontexten unterschiedlich
realisiert werden. Man knnte /h/ als eine stimmlose Realisie- rung
der Kontextvokale betrachten. (Spektrogramme ihi, aha, uhu:
verschiedene Realisierungen des /h/)
Folie 14
Variation in der Lautrealisierung i: h a: h h u: [] ] ] [[
Folie 15
Variation in der Lautrealisierung berlagerung von
artikulatorischen Gesten Beispiel: Die artikulatorische Geste fr
den Vokal /Y/ wird durch die Geste fr die benachbarten Frikativen
ber-lagert. (SpektrogrammDezimalsystem: keine klare Abgrenzung der
Laute)
Folie 16
Variation in der Lautrealisierung det0sima:lzYd0 s t0te:m[]
(
Folie 17
Variation in der Lautrealisierung Artikulatorische bergnge
Beispiel: An den Grenzen des Vokals hngt die Realisierung stark von
der Artikulation der benachbarten Laute ab. (Spektrogramm aba, ada,
aga: Variation innerhalb der Laute)
Folie 18
Variation in der Lautrealisierung a: b0dg[][[]]d0g0b
Folie 19
Variation in der Lautrealisierung Menschliche Hrer haben mit
der im Signal vorhandenen Variation normalerweise keine Probleme.
Fr den Computer ist sie aber eine Herausforde- rung, den die
Variation in der Lautrealisierung mu in den akustischen Modellen
erfasst werden. Dazu werden statistische Verfahren (meistens hidden
Markov Modellierung) verwendet.
Folie 20
Markov-Modellierung Markov-Modelle bestehen aus Zustnden
("states"), die durch bergnge miteinander verbunden sind. Wenn sich
der Automat in einem bestimmten Zustand befindet, emittiert es ein
Symbol (z.B. eine akustische Vektor). Die bergnge zwischen den
Zustnden sind mit Wahrscheinlichkeiten versehen. Spielen wir
erstmal ein einfaches Beispiel durch, in dem die Zustnde Behlter
mit farbigen Bllen darstellen. stochastische Modellierung
Folie 21
MMs: Einfaches Beispiel Man fngt in Zustand S (keine Emission)
an und geht von da mit einer Wahrscheinlichkeit von p = 1 zu
Zustand 1 weiter. Da nimmt man einen schwarzen Ball aus dem
Behlter. S E 1 0.40.3 0.5 0.6 0.5 0.7 123
Folie 22
MMs: Einfaches Beispiel Danach geht man entweder weiter zum 2.
Zustand (p = 0.4) und nimmt einen roten Ball aus dem Behlter oder
man geht noch mal zum 1. Behlter und nimmt wieder einen schwarzen
Ball. So weiter, bis man in Zustand E landet und eine Reihe von
gefrbten Bllen hat. S E 1 0.40.3 0.5 0.6 0.5 0.7 123
Folie 23
Hidden Markov Modellierung Hidden-Markov-Modelle (HMMs)
unterscheiden sich darin von Markov-Modellen, dass die Emissionen
nicht unbedingt einem bestimmten Zustand zuzuordnen sind. In
unserem Beispiel wre dies der Fall, wenn in allen drei Behltern
rote, schwarze und gelbe Blle wren
Folie 24
Hidden Markov Modellierung Dabei kann das Verhltnis der
farbigen Bllen in den Behltern unterschiedlich sein, so dass die
Farbemissionen in den drei Zustnden unterschiedliche
Wahrscheinlichkeiten haben.
Folie 25
HMMs: Einfaches Beispiel Man fngt in Zustand S (keine Emission)
an und geht von da mit einer Wahrscheinlichkeit von p = 1 zu
Zustand 1 weiter. Da nimmt man einen Ball aus dem Behlter, der
jetzt aber schwarz, rot oder gelb sein kann. S E 1 0.40.3 0.5 0.6
0.5 0.7 123
Folie 26
HMMs: Einfaches Beispiel Danach geht man entweder weiter zum 2.
Zustand (p = 0.4) und nimmt einen Ball aus dem Behlter oder man
geht noch mal zum 1. Behlter und nimmt da noch mal einen Ball. So
weiter, bis man in Zustand E landet und eine Reihe von gefrbten
Bllen hat. S E 1 0.40.3 0.5 0.6 0.5 0.7 123
Folie 27
HMMs: verborgene Zustnde Wenn jetzt eine Reihe von farbigen
Bllen vorliegt, kann man nicht mehr eindeutig erkennen, in welchem
Zustand (aus welchem Behlter) man die einzelnen Blle genommen hat.
Die Zustnde sind verborgen, deswegen Hidden-Markov- Modellierung.
11 1112222333 111222223333 usw.
Folie 28
HMMs: Spracherkennung Reihe von farbigen Bllen = akustische
Frames mit Parametervektoren. Die Aufgabe fr den Spracherkenner ist
es, fr eine vorliegende uerung zu erkennen, welche Abfolge von
Zustnden die Frames am wahrscheinlichsten emittiert hat. Das wird
durch die Transitions- und Emissionswahrscheinlichkeiten
bestimmt.
Folie 29
HMMs: bergange In der Spracherkennung werden links-rechts-
Modelle verwendet (wie vorher gezeichnet), weil die akustischen
Ereignisse in der Zeit geordnet sind. So werden Vokale z.B. oft
betrachtet als eine Sequenz von Anfangs-transition, steady state
und Endtransition. Wenn ein Modell fr Pausen trainiert wird, werden
meist bergange von jedem Zustand zu jedem anderen erlaubt, da es
keinen vorgegebenen Ablauf von akustischen Ereignissen gibt
(ergodisch).
Folie 30
HMMs: Emissionen Emissionen knnen beschrieben werden mit:
Vektorcodebook: Eine feste Anzahl von quantisierten akustischen
Vektoren werden verwendet. Sie werden durch Beobachtungs-
wahrscheinlichkeiten bestimmten Zustnden zugeordnet. Gauss'sche
Verteilungen: Die Variation in der akustischen Realisierung in
einem Zustand wird mittels einer Normalverteilung beschrieben.
Folie 31
HMMs: komplexere Modelle Es werden auch komplexere Modelle
benutzt : parallele Zustnde und multiple mixtures knnen Variationen
in der Lautrealisierung ( Sprecher, Dialekt, Kontext, usw.) besser
beschreiben. Gauss'sche Mixturen: die systematische Variation in
der akustischen Realisierung von einem Zustand wird mittels
mehrerer Normalverteilungen beschrieben.
Folie 32
HMMs: Datenarmut? Generalisierte Triphone beschreiben einen
Laut in unterschiedlichen Kontexten, wobei die Kontexten gruppiert
sind (z.B. nach Artikulationsstelle oderdata-driven nach
akustischen Eigenschaften). So werden die Anforderungen an der Gre
des Trainingkorpus reduziert.
Folie 33
HMMs: Spracherkennung Es kann mehrere Abfolgen von Zustnden
geben, die das vom gleichen Signal (Framefolge) folgen knnen. Die
Zustandfolge mit der hchsten Wahrscheinlichkeit wird gesucht (dazu
wird der sog. Viterbi-Algorithmus verwendet). Dies gilt fr alle
HMMs: Die Zustandsequenz, die die hchste Wahrscheinlichkeit hat,
wird erkannt.
Folie 34
HMMs: Lexikon & Sprachmodell Mit HMM kann man heutzutage
kontinuierliche Spracherkennung durchfhren. Dazu braucht man, auer
akustischen (Hidden-Markov-) Modellen, auch ein Lexikon und ein
Sprachmodell. Im Lexikon werden alle Wrter (oder Morpheme)
aufgelistet, die das System erkennen soll. Im Sprachmodell werden
alle mgliche Kombi- nationen von Eintrgen im Lexikon
festgelegt.
Folie 35
HMMs: Lexikon Die Eintrge im Lexikon bestehen meist aus einem
orthographischen Wort und seiner Realisierung als Folge von HMMs fr
Laute. Um Variationen in der Aussprache von Wrtern besser zu
bewltigen, werden manchmal im Lexikon auch Aussprachevarianten
geschrieben, in denen Reduktionen, Einfgungen und Assimilationen
bercksichtigt werden. Sie sorgen dafr, da der Abstand zwischen
akustischer Realisierung und Eintrag geringer sind.
Folie 36
HMMs: Lexikon Dafr wird auch der Abstand zwischen den
Lexikoneintrgen geringer, was wieder zu Verwechslungen fhren kann.
Deswegen werden oft nur die hufigsten Aussprachevarianten, z.B. fr
Funktionswrter, bercksichtigt, um die Erkennung zu verbessern.
Folie 37
HMMs: Sprachmodell Das Sprachmodell kann entweder als
Regelsystem (linguistische Grammatik) oder als probabilistisches
System implementiert werden. Regelsysteme haben den Vorteil, das
sie zu einem besseren Verstndnis der linguistischen Eigenschaften
von uerungen fhren (genau so wie kenntnisbasierte Lauterkennung zu
einem besseren Verstndnis der phonetischen Eigenschaften von Lauten
fhren kann).
Folie 38
HMMs: Sprachmodell Probabilistische Systeme modellieren dagegen
realisierte uerungen. Sie berechnen Wahrscheinlichkeiten fr die
bergnge zwischen Lexikoneintrge. Sie sind weniger generalisierend,
brauchen dafr groe Datenmengen als Trainingsmaterial. Angenommen,
dass die Testbedingungen gut mit den Trainingsdaten bereinstimmen
(Textsorte, lexikalische Domne, usw.) beschreiben sie aber sehr
genau das beobachtete Sprecherverhalten.
Folie 39
Literaturangaben: Van Alphen, P. und D. van Bergem (1989).
Markov models and their application in speech recognition,
Proceedings Institute of Phonetic Sciences, University of Amsterdam
13, 1-26. Holmes, J. (1988). Speech Synthesis and Recognition (Kap.
8). Wokingham (Berks.): Van Nostrand Reinhold, 129-152. Holmes, J.
(1991). Spracherkennung und Sprachsynthese (Kap. 8). Mnchen:
Oldenburg.
Folie 40
Literaturangaben: Cox, S. (1988). Hidden Markov models for
automatic speech recognition: theory and application, Br. Telecom
techn. Journal 6(2), 105- 115. Lee, K.-F. (1989). Hidden Markov
modelling: past, present, future, Proc. Eurospeech 1989, vol. 1,
148-155.