Upload
dangdiep
View
216
Download
0
Embed Size (px)
Citation preview
Folie 1 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Automatische Spracherkennung in
Theorie und Praxis
Hans-Günter Hirsch, Harald Finster
Hochschule Niederrhein, Krefeld
email: [email protected]
http://dnt.kr.hs-niederrhein.de
Folie 2 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Gliederung
1. Aufbau eines Spracherkennungssystems
� Sprachanalyse, Merkmalsextraktion
� Training
� Mustererkennung
2. Experimente zur phonembasierten Erkennung
� Training
� Erkennungsergebnisse
3. Sprachdialogsystem
� Demonstrationen
Folie 3 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Mensch-Maschine Kommunikation
KommunikationMensch – Maschine
Eingabe:• Tastatur• Maus
Ausgabe:• Display (visuell)
KommunikationMensch – Mensch
• Sprache• Gestik
Folie 4 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Störeinflüsse
Mobil-funk
Sprach-erkenner
Raum
• Additive Hintergrundstörungen
• Unbekannte Frequenzgänge (z.B. Mikrofon, Telefonkanal)
• Hallige räumliche Umgebung
• Mobilfunkkanal (Sprachcodierung, Funkkanal)
Folie 5 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Klassifizierung
1. Erkennungsaufgabe• Einzelne Wörter• Wortketten• Ganze Sätze, kontinuierliche Sprache
2. Personenkreis• sprecherabhängig (individuelle Trainingsphase)• sprecherunabhängig
3. Anwendung• Steuerung von Geräten• Informationssystem• Diktiersystem
Folie 6 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Aufbau eines Erkennungssystems
Erkennungsergebnis
Merkmalsextraktion
Sprache Sprach-analyse
Muster-Erkennung
Referenzmuster
Training
Folie 7 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Sprachanalyse
• Der Signalverlauf im Zeitbereich beinhaltet nur sehr begrenzt relevante akustische Merkmale
• Frequenzbereich (ca. bis 6 kHz, Telefon bis 4 kHz)
• Menschliche Gehör:• Frequenzanalyse (Frequenz-Orts Transformation im Innenohr) �
Filterbank• Phase leistet nahezu keinen Beitrag zum Sprachverstehen
� Betragsbildung• Keine lineare Abhängigkeit zwischen dem Schallpegel und der
empfundenen Lautheit � Logarithmischer Zusammenhang
Folie 8 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Innenohr mit Basilarmembran
Folie 9 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
„Cepstral“- Analyse
Präemphase, Hamming-Fenster
FFT
| | oder | |2
MEL Filterbank
Logarithmierung
� s2(n)
12 MEL Cepstral - Koeffizienten
DCT
Sprachsignal s(n)
…
…
1. 128.
…
…
f/kHz0
…
4
Energie-Koeffizient
1. 24.
• Kurzzeit-Spektralanalyse von ca. 20 -30 ms langen Signalabschnitten
DCT = Diskrete Cosinus Transformation
Folie 10 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Merkmalsextraktion
• Fensterbreite: ~ 20 … 30 ms• Verschiebung um ~ 10 ms � 100 Vektoren/Sekunde
• Jeder Vektor besteht aus ~13 akustischen Parameter (12 Cepstral- und 1 Energieparameter)
• Neben den statischen Parametern werden die zeitlichen Ableitungen jedes Parameters über der Zeit verwendet� Delta-Parameter
• 2. Ableitung: Delta-Delta Parameter
� 100 * (13+13+13) = 3900 Parameter/Sek.
Folie 11 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Spektrales Muster der Ziffer ‘one’
Zeit �������� Frequenz
Folie 12 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Training
• Aus der Merkmalsextraktion resultiert ein Datenstrom mit ~3900 Parameter je Sekunde
• Die Parameter des zeitlichen Abschnitts eines Wort (Lauts) können als Referenzmuster verwendet werden
• Zur Datenreduktion Auswahl oder Mittelung von Vektoren � Anwendung zur sprecherabhängigen Erkennung
• Zur sprecherunabhängigen Erkennung wird eine statistische Modellierung mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt.
Folie 13 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
�������� ��� � ��� ����� � ��
-
• Mathematisches, statistisches Modell zur Beschreibung von Sprachabschnitten
……
… …
Folge von Merkmalsvektoren
• Jeder Zustand wird beschrieben durch Gauß-Verteilungen jedes Parameters eines Merkmalsvektors (z.B. 39 Mittelwerte & 39 Varianzen)
Folie 14 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
� ������
• Initialmodell durch lineare Segmentierung eines Sprachsignals (z.B. Worts) gemäß der Anzahl von Zuständen des HMMs
• „Erzwungene“ Erkennung mit möglichst vielen, bekannten Trainingsäußerungen (grosse Sprachdatenbasis)
• Aus der erzwungenen Erkennung resultiert eine zeitliche Zuordnung der Vektoren zu Zuständen
• Bestimmung der Gauß-Verteilungen aus allen Vektoren, die einem Zustand zugeordnet werden
• Iterative Wiederholung
• Kurze Wörter (~500 … 1000 ms) werden mit etwa 16 Zuständen und Laute (phoneme) mit etwa 3 bis 6 Zuständen als HMM modelliert.
Folie 15 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
�������
• Bestimmung der Wahrscheinlichkeit, dass eine Folge von Merkmalsvektoren durch ein HMM modelliert werden kann
• Suche nach dem Maximum der bedingten Wahrscheinlichkeiten für das HMM wi , gegeben eine Folge von Merkmalsvektoren [X1, X2, …, Xn]MAX { P(wi | [X1, X2, …, Xn] }
• Wortkettenerkennung:
- - -
HMM für Pause HMM für Wort HMM für Pause
Folie 16 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
������ � � ���������������������
• Modellierung von Wörtern als Folge von Lauten (Phonemen)� Aneinanderhängen der Phonem-HMMs zu einem Wort-HMM
• etwa 50 Phoneme im Deutschen• Training der Phoneme nötig• Benötigt wird eine Sprachdatenbasis:
• Sollte alle Phoneme in ausreichender Anzahl beinhalten• Neben der Sprache wird eine Lautbeschreibung jeder Äußerung mit
einer zeitlichen Zuordnung benötigt
• „SpeechDat“ – Sammlung über Telefon von ca. 1000 Sprechern:• ~32000 Äußerungen (= ~48 h) zum Training verwendet
(Wörter, Ziffern, Zahlwörter, Sätze, …)
Folie 17 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
� ��� ������� ��� ��������
• Betrachtung der Laute ohne Berücksichtigung des vorhergehenden und des nachfolgenden Lauts � „Monophon“
• Modellierung von 53 unterschiedlichen Monophonen durch HMMs mit definierter Anzahl von Zuständen und definierter Anzahl von Gauß-Verteilungen je Zustand
• Untersucht wurden:• HMMs mit 3, 5, 7 oder 9 Zuständen• 1, 2, 4, 8 oder 16 Gauß-Verteilungen je Merkmal und je Zustand
- -…
3 Zustände 5, 7 oder 9 Zustände
Folie 18 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
� ��� ������� ���� ������� ����� ���� �����
00.2
0.40.6
0.81
0
0.2
0.4
0.6
0.8
1
0
1
c1c2
Pro
b(c1
,c2)
Folie 19 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
� ��� ������� ��� ������
• Betrachtung der Laute mit Berücksichtigung des vorhergehenden und des nachfolgenden Lauts � „Triphon“
• Relativ große Anzahl: ~9000• Problem: genügend viele Beispiele jedes Triphons in den
Trainingsdaten?• Kompromiss: Modellierung in Abhängigkeit der Lautklasse des
vorhergehenden und des nachfolgenden Lauts � ~750 Triphone
• Untersucht wurden wieder:•HMMs mit 3, 5, 7 oder 9 Zuständen•1, 2, 4, 8 oder 16 Gauß-Verteilungen je Merkmal und je Zustand
aI OY aUDiphonD
t g p d k bPlosivP
m n l r j Y N Z OnNasalN
h f v z x s S CFrikativF
a: e: i: o: u: a E I O U y: oe Oe ae ar an E: @
VokalV
ElementeKlasseKürzel
Folie 20 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
� �� � �������� ���� ����
• Sprachanalyse mit einer von ETSI standardisierten „robusten“ Cepstralanalyse (Module zur Störunterdrückung und zur Frequenzgangkompensation)
• Training und Erkennung mit frei verfügbarer Software zum Training und zur Erkennung mit HMMs (HTK – Hidden Markov Model Toolkit, Cambridge, UK)
• Erkenntnisse dieser Experimente können übertragen und genutzt werden für eigenen Erkenner
Folie 21 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Sprachdaten zum Training und zur Erkennung
SpeechDat~32000 Äußerungen
~7600 Kommandowörter~2100 Äußerungen mit
~10000 Ziffern
RVG~1900 Äußerungen mit
~7000 Ziffern
SpeechDatCar~3000 Äußerungen mit
~17000 Ziffern
Training
Spracherkenner
Referenzmodelle
• 1. Aufgabe: Einzelworterkennung von
Kommandowörtern (CMD)
• 2. Aufgabe: Ziffernketten (S1,S2,S3)
Telefon
Nahbesprechung
Auto S3
S2
S1 CMD
Folie 22 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Wortfehlerraten (16 Gauß-Verteilungen pro Zustand)
Auto-Störgeräusche
Ziffernketten
Kommandos
Nahbesprechung
Telefon(auch zum Training verwendet)
Folie 23 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Wortfehlerraten (7 Zustände je HMM)
Auto-Störgeräusche
Ziffernketten
Kommandos
Nahbesprechung
Telefon(auch zum Training verwendet)
Folie 24 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Wortfehlerraten (7 Zustände je HMM)
Vergleich von Monophon- und Triphon Modellen
Folie 25 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Simulationsergebnisse
• Geringste Fehlerraten für HMMs mit 7 Zuständen
• Keine wesentliche Verbesserung mehr für mehr als 8 Gauß-Verteilungen je Zustand
• Triphon-Modelle besser als Monophon-Modelle
Folie 26 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Sprachdialogsystem
ISDN PC(Linux OS)
öffentliches Telefonnetz
ISDN Telefonanlage
Sprach-dialog
Software
Dialog-Beschreibung(ASCII file)
Dialog-Controller
Spracherkennung
Sprachausgabe
ISDN
• Spracherkenner zeichnet sich durch relativ hohe Robustheit gegenüber stationären Hintergrundstörungen aus
• wird erzielt durch eine Adaption der Referenzmuster
Folie 27 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Erkennungs-ergebnis
Adaption der Referenzmuster
Sprach-signal
HMMs
Adaptierte HMMs
Sprach-analyse
Muster-erkennung
HMMAdaption
Schätzung derStörparameter
Folie 28 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Automatische Notenauskunft
493496 Sprachdialogsystemmit Spracherkennung
Der Student mit der Matrikelnummer
493496 hat die Note 1,3 erzielt …
Auszug vorhandener Matrikelnummern:356738 402828 448333449698 470353 470239470079 478062 507379529704 …
Tel.-Nr. 02151 643894
Folie 29 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Verkehrsinfo
A - 57 Sprachdialogsystemmit Spracherkennung
Auf der A-57 von Krefeld in Richtung
Köln ist zwischen der Anschlussstelle …
Internet
www.verkehrsinfo.de
Tel.-Nr. 02151 643893
Folie 30 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch
Demo zur phonembasierten Erkennung
Gerhard Schröder5
Edelgard Buhlman4
Peer Steinbrück3
Gabriele Behler2
Hermann Ostendorf1
Rainer Wallnig0
NameIndex