30
Folie 1 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch Automatische Spracherkennung in Theorie und Praxis Hans-Günter Hirsch, Harald Finster Hochschule Niederrhein, Krefeld email: [email protected] http://dnt.kr.hs-niederrhein.de

Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Embed Size (px)

Citation preview

Page 1: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 1 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Automatische Spracherkennung in

Theorie und Praxis

Hans-Günter Hirsch, Harald Finster

Hochschule Niederrhein, Krefeld

email: [email protected]

http://dnt.kr.hs-niederrhein.de

Page 2: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 2 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Gliederung

1. Aufbau eines Spracherkennungssystems

� Sprachanalyse, Merkmalsextraktion

� Training

� Mustererkennung

2. Experimente zur phonembasierten Erkennung

� Training

� Erkennungsergebnisse

3. Sprachdialogsystem

� Demonstrationen

Page 3: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 3 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Mensch-Maschine Kommunikation

KommunikationMensch – Maschine

Eingabe:• Tastatur• Maus

Ausgabe:• Display (visuell)

KommunikationMensch – Mensch

• Sprache• Gestik

Page 4: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 4 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Störeinflüsse

Mobil-funk

Sprach-erkenner

Raum

• Additive Hintergrundstörungen

• Unbekannte Frequenzgänge (z.B. Mikrofon, Telefonkanal)

• Hallige räumliche Umgebung

• Mobilfunkkanal (Sprachcodierung, Funkkanal)

Page 5: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 5 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Klassifizierung

1. Erkennungsaufgabe• Einzelne Wörter• Wortketten• Ganze Sätze, kontinuierliche Sprache

2. Personenkreis• sprecherabhängig (individuelle Trainingsphase)• sprecherunabhängig

3. Anwendung• Steuerung von Geräten• Informationssystem• Diktiersystem

Page 6: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 6 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Aufbau eines Erkennungssystems

Erkennungsergebnis

Merkmalsextraktion

Sprache Sprach-analyse

Muster-Erkennung

Referenzmuster

Training

Page 7: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 7 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Sprachanalyse

• Der Signalverlauf im Zeitbereich beinhaltet nur sehr begrenzt relevante akustische Merkmale

• Frequenzbereich (ca. bis 6 kHz, Telefon bis 4 kHz)

• Menschliche Gehör:• Frequenzanalyse (Frequenz-Orts Transformation im Innenohr) �

Filterbank• Phase leistet nahezu keinen Beitrag zum Sprachverstehen

� Betragsbildung• Keine lineare Abhängigkeit zwischen dem Schallpegel und der

empfundenen Lautheit � Logarithmischer Zusammenhang

Page 8: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 8 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Innenohr mit Basilarmembran

Page 9: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 9 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

„Cepstral“- Analyse

Präemphase, Hamming-Fenster

FFT

| | oder | |2

MEL Filterbank

Logarithmierung

� s2(n)

12 MEL Cepstral - Koeffizienten

DCT

Sprachsignal s(n)

1. 128.

f/kHz0

4

Energie-Koeffizient

1. 24.

• Kurzzeit-Spektralanalyse von ca. 20 -30 ms langen Signalabschnitten

DCT = Diskrete Cosinus Transformation

Page 10: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 10 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Merkmalsextraktion

• Fensterbreite: ~ 20 … 30 ms• Verschiebung um ~ 10 ms � 100 Vektoren/Sekunde

• Jeder Vektor besteht aus ~13 akustischen Parameter (12 Cepstral- und 1 Energieparameter)

• Neben den statischen Parametern werden die zeitlichen Ableitungen jedes Parameters über der Zeit verwendet� Delta-Parameter

• 2. Ableitung: Delta-Delta Parameter

� 100 * (13+13+13) = 3900 Parameter/Sek.

Page 11: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 11 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Spektrales Muster der Ziffer ‘one’

Zeit �������� Frequenz

Page 12: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 12 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Training

• Aus der Merkmalsextraktion resultiert ein Datenstrom mit ~3900 Parameter je Sekunde

• Die Parameter des zeitlichen Abschnitts eines Wort (Lauts) können als Referenzmuster verwendet werden

• Zur Datenreduktion Auswahl oder Mittelung von Vektoren � Anwendung zur sprecherabhängigen Erkennung

• Zur sprecherunabhängigen Erkennung wird eine statistische Modellierung mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt.

Page 13: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 13 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

�������� ��� � ��� ����� � ��

-

• Mathematisches, statistisches Modell zur Beschreibung von Sprachabschnitten

……

… …

Folge von Merkmalsvektoren

• Jeder Zustand wird beschrieben durch Gauß-Verteilungen jedes Parameters eines Merkmalsvektors (z.B. 39 Mittelwerte & 39 Varianzen)

Page 14: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 14 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

� ������

• Initialmodell durch lineare Segmentierung eines Sprachsignals (z.B. Worts) gemäß der Anzahl von Zuständen des HMMs

• „Erzwungene“ Erkennung mit möglichst vielen, bekannten Trainingsäußerungen (grosse Sprachdatenbasis)

• Aus der erzwungenen Erkennung resultiert eine zeitliche Zuordnung der Vektoren zu Zuständen

• Bestimmung der Gauß-Verteilungen aus allen Vektoren, die einem Zustand zugeordnet werden

• Iterative Wiederholung

• Kurze Wörter (~500 … 1000 ms) werden mit etwa 16 Zuständen und Laute (phoneme) mit etwa 3 bis 6 Zuständen als HMM modelliert.

Page 15: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 15 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

�������

• Bestimmung der Wahrscheinlichkeit, dass eine Folge von Merkmalsvektoren durch ein HMM modelliert werden kann

• Suche nach dem Maximum der bedingten Wahrscheinlichkeiten für das HMM wi , gegeben eine Folge von Merkmalsvektoren [X1, X2, …, Xn]MAX { P(wi | [X1, X2, …, Xn] }

• Wortkettenerkennung:

- - -

HMM für Pause HMM für Wort HMM für Pause

Page 16: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 16 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

������ � � ���������������������

• Modellierung von Wörtern als Folge von Lauten (Phonemen)� Aneinanderhängen der Phonem-HMMs zu einem Wort-HMM

• etwa 50 Phoneme im Deutschen• Training der Phoneme nötig• Benötigt wird eine Sprachdatenbasis:

• Sollte alle Phoneme in ausreichender Anzahl beinhalten• Neben der Sprache wird eine Lautbeschreibung jeder Äußerung mit

einer zeitlichen Zuordnung benötigt

• „SpeechDat“ – Sammlung über Telefon von ca. 1000 Sprechern:• ~32000 Äußerungen (= ~48 h) zum Training verwendet

(Wörter, Ziffern, Zahlwörter, Sätze, …)

Page 17: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 17 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

� ��� ������� ��� ��������

• Betrachtung der Laute ohne Berücksichtigung des vorhergehenden und des nachfolgenden Lauts � „Monophon“

• Modellierung von 53 unterschiedlichen Monophonen durch HMMs mit definierter Anzahl von Zuständen und definierter Anzahl von Gauß-Verteilungen je Zustand

• Untersucht wurden:• HMMs mit 3, 5, 7 oder 9 Zuständen• 1, 2, 4, 8 oder 16 Gauß-Verteilungen je Merkmal und je Zustand

- -…

3 Zustände 5, 7 oder 9 Zustände

Page 18: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 18 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

� ��� ������� ���� ������� ����� ���� �����

00.2

0.40.6

0.81

0

0.2

0.4

0.6

0.8

1

0

1

c1c2

Pro

b(c1

,c2)

Page 19: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 19 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

� ��� ������� ��� ������

• Betrachtung der Laute mit Berücksichtigung des vorhergehenden und des nachfolgenden Lauts � „Triphon“

• Relativ große Anzahl: ~9000• Problem: genügend viele Beispiele jedes Triphons in den

Trainingsdaten?• Kompromiss: Modellierung in Abhängigkeit der Lautklasse des

vorhergehenden und des nachfolgenden Lauts � ~750 Triphone

• Untersucht wurden wieder:•HMMs mit 3, 5, 7 oder 9 Zuständen•1, 2, 4, 8 oder 16 Gauß-Verteilungen je Merkmal und je Zustand

aI OY aUDiphonD

t g p d k bPlosivP

m n l r j Y N Z OnNasalN

h f v z x s S CFrikativF

a: e: i: o: u: a E I O U y: oe Oe ae ar an E: @

VokalV

ElementeKlasseKürzel

Page 20: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 20 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

� �� � �������� ���� ����

• Sprachanalyse mit einer von ETSI standardisierten „robusten“ Cepstralanalyse (Module zur Störunterdrückung und zur Frequenzgangkompensation)

• Training und Erkennung mit frei verfügbarer Software zum Training und zur Erkennung mit HMMs (HTK – Hidden Markov Model Toolkit, Cambridge, UK)

• Erkenntnisse dieser Experimente können übertragen und genutzt werden für eigenen Erkenner

Page 21: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 21 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Sprachdaten zum Training und zur Erkennung

SpeechDat~32000 Äußerungen

~7600 Kommandowörter~2100 Äußerungen mit

~10000 Ziffern

RVG~1900 Äußerungen mit

~7000 Ziffern

SpeechDatCar~3000 Äußerungen mit

~17000 Ziffern

Training

Spracherkenner

Referenzmodelle

• 1. Aufgabe: Einzelworterkennung von

Kommandowörtern (CMD)

• 2. Aufgabe: Ziffernketten (S1,S2,S3)

Telefon

Nahbesprechung

Auto S3

S2

S1 CMD

Page 22: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 22 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Wortfehlerraten (16 Gauß-Verteilungen pro Zustand)

Auto-Störgeräusche

Ziffernketten

Kommandos

Nahbesprechung

Telefon(auch zum Training verwendet)

Page 23: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 23 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Wortfehlerraten (7 Zustände je HMM)

Auto-Störgeräusche

Ziffernketten

Kommandos

Nahbesprechung

Telefon(auch zum Training verwendet)

Page 24: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 24 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Wortfehlerraten (7 Zustände je HMM)

Vergleich von Monophon- und Triphon Modellen

Page 25: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 25 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Simulationsergebnisse

• Geringste Fehlerraten für HMMs mit 7 Zuständen

• Keine wesentliche Verbesserung mehr für mehr als 8 Gauß-Verteilungen je Zustand

• Triphon-Modelle besser als Monophon-Modelle

Page 26: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 26 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Sprachdialogsystem

ISDN PC(Linux OS)

öffentliches Telefonnetz

ISDN Telefonanlage

Sprach-dialog

Software

Dialog-Beschreibung(ASCII file)

Dialog-Controller

Spracherkennung

Sprachausgabe

ISDN

• Spracherkenner zeichnet sich durch relativ hohe Robustheit gegenüber stationären Hintergrundstörungen aus

• wird erzielt durch eine Adaption der Referenzmuster

Page 27: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 27 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Erkennungs-ergebnis

Adaption der Referenzmuster

Sprach-signal

HMMs

Adaptierte HMMs

Sprach-analyse

Muster-erkennung

HMMAdaption

Schätzung derStörparameter

Page 28: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 28 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Automatische Notenauskunft

493496 Sprachdialogsystemmit Spracherkennung

Der Student mit der Matrikelnummer

493496 hat die Note 1,3 erzielt …

Auszug vorhandener Matrikelnummern:356738 402828 448333449698 470353 470239470079 478062 507379529704 …

Tel.-Nr. 02151 643894

Page 29: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 29 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Verkehrsinfo

A - 57 Sprachdialogsystemmit Spracherkennung

Auf der A-57 von Krefeld in Richtung

Köln ist zwischen der Anschlussstelle …

Internet

www.verkehrsinfo.de

Tel.-Nr. 02151 643893

Page 30: Automatische Spracherkennung in Theorie und Praxisdnt.kr.hsnr.de/papers/vortrag_seminar_april_04.pdf · mit sogenannten Hidden-Markov Modellen (HMMs) eingesetzt. Folie 13 Spracherkennung

Folie 30 Spracherkennung in Theorie und Praxis - 22.04.04, Günter Hirsch

Demo zur phonembasierten Erkennung

Gerhard Schröder5

Edelgard Buhlman4

Peer Steinbrück3

Gabriele Behler2

Hermann Ostendorf1

Rainer Wallnig0

NameIndex