16
Spracherkennu ng Egon Berger Didaktik der Physik 29.06.06

Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Embed Size (px)

Citation preview

Page 1: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Spracherkennung

Egon BergerDidaktik der Physik

29.06.06

Page 2: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Die Geschichte der Spracherkennung:

• 1960er Jahren: Erkennung von einigen 100 Einzelworten.

• 1980er Jahren: Statistiken über die Häufigkeit bestimmter Wortkombinationen ermöglichen zwischen gleich klingenden Wörtern wie z.B. „Meer“ und „mehr“ zu unterscheiden.

• 1984: IBM stellt Spracherkennungssystem vor welches 5.000 Einzelworte erkennt. Es benötigte dafür jedoch einen Großrechner.

• 1993: IBM verkauft erstes Spracherkennungssystem für den Massenmarkt welches auf normalen PCs läuft. Preis: $1000.

• 1993: IBM verkauft erstes Spracherkennungssystem für den Massenmarkt welches auf normalen PCs läuft. Preis: $1000.

• 2004: IBM gibt Teile seiner Spracherkennungsanwendungen als Open Source frei.

Page 3: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Wie gut funktioniert Spracherkennung ?

Eine Erkennung von 95 Prozent ist zu gering, da zu viel nachgebessert werden müsste.

• Wird kein begrenzter Wortschatz verwendet wird, so wird keine volle Treffsicherheit erreicht .

• Überall dort, wo nur ein begrenzter Wortschatz verwendet wird, wird die automatische Spracherkennung mit Erfolg praktiziert. Systeme mit einem begrenzten Fachwortschatz erreichen eine nahezu 100% Erkennungsquote. Beispiel: Fahrplanauskunft, GPS-System im Auto

Unterteilung der Spracherkennung in zwei Arten:• sprecherunabhängige Spracherkennung:

• keine vorhergehende Trainingsphase• Wortschatz beträgt nur einige tausend Wörter

• sprecherabhängige Spracherkennung• vorhergehende Trainingsphase

Page 4: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Wie funktioniert Spracherkennung?

Page 5: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Sprache wird mit dem Mikrophon aufgenommen.

Zeit

Amplitude

Das analoge elektrische Signal vom Mikrophon wird digitalisiert.

000000010010001101000101011001111000100110101011

Das digitalisierte Amplitudensignal wird durch Fouriertransformation in ein Spektrogramm umgewandelt.

Gesprochene Vokale: e-a-e-a

Frequenz

Zeit

hohe Intensität

geringe Intensität

Page 6: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Im Spektrogramm kann man für die gesprochenen Vokale e-a-e-a eine deutliche Bänderstruktur erkennen. Diese dunklen Streifen werden „Formanten“ genannt.

Die Spracherkennung versucht anhand der Muster im Spektrogramm auf die gesprochenen Laute zu schließen.

Auftretende Probleme:

e a e a

• Die Formanten gehen fließend von einem Laut in den anderen über. Dies geschied auch zwischen Wörtern, wenn sie ohne Pause ausgesprochen werden. Es ist daher schwierig zu erkennen, wann ein Laut bzw. Wort beginnt oder endet.

• Konsonanten besitzen keine ausgeprägte Formantenstruktur.

Page 7: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Diskrete Sprache – kontinuierliche Sprache

Diskrete Sprache:

Man erkennt deutlich längere Pausen zwischen den Wörtern als zwischen den Silben.

Kontinuierliche Sprache:

Es sind keine Pausen erkennbar.

Page 8: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Das Spektogram der Konsonanten

Konsonanten sind wesentlich schwieriger zu erkennen als Vokale. Einzelne Konsonanten sind z.B. nur durch den Übergang zu den benachbarten Lauten feststellbar.

Der Konsonant „p“ ist faktisch nur Stille. Man erkennt ihn lediglich durch die Übergänge zu den anderen Lauten. Ein Entfernen von „p“ bewirkt keinen hörbaren Unterschied.

Page 9: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Andere Konsonanten sind durchaus an charakteristischen spektralen Mustern erkennbar.

Bsp: „s“ und „f“ – besitzen hohen Energieanteil in den höheren Frequenzbändern.

Das Telefon überträgt Frequenzen bis zu 3,4 kHz. Die relevanten Informationen zur Unterscheidung von „s“ und „f“ fehlen dadurch.

Deswegen ist Buchstabieren über Telefon ohne Verwendung eines speziellen Buchstabieralphabets (z.B. „Siegfried“, „Friedrich“) auch in der Kommunikation zwischen zwei Menschen ausgesprochen mühselig und fehleranfällig ist.

s f e

Page 10: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Wie geht ein Spracherkennungssystem vor um Muster zu erkennen?

10 msec

Alle 10 msec wird aus einem 25 msec langen sich überlappenden Ausschnitt die Intensität in den Intervallen ermittelt. Das ergibt einen sog. Merkmalsvektor.

Um die Muster aufzulösen wird das Frequenzspektrum in etwa 20 Intervalle geteilt. Das Gehöhr kann bei niedrigen Frequenzen gut zwischen ähnlichen Frequenzen unterscheiden, nicht jedoch bei hohen. Darum wird eine gehöhrrichtige Unterteilung des Spektrums vorgenommen.

1 sec

4 kHz

bis 8 kHz

Page 11: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Wie kommt man nun von den Merkmalsvektoren zu den Lauten?

Durch stochastische Modelle, einem sog. Hidden Markov Model (kurz HMM) in Kombination mit künstlichen Neuronalen Netzen (kurz KNN).

Beschreibung eines HMM:Ein Hidden Markov Model ist ein stochastisches Modell, das sich durch zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow-Kette, die durch Zustände und Übergangswahrscheinlichkeiten gekennzeichnet ist. Die Zustände der Kette sind von außen jedoch nicht direkt sichtbar (darum hidden). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsabhängigen Wahrscheinlichkeitsverteilung.Die Aufgabe besteht häufig darin, aus der Sequenz der Ausgabesymbole auf die Sequenz der verborgenen Zustände zu schließen.

Page 12: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Da man in der Spracherkennung von einem Zustand immer nur zu einem höheren kommt, gilt außerdem aij = 0 falls j < i.

HMMs beruhen auf dem Prinzip der Markov-Ketten.

Fundament einer Markov-Kette ist der Vektor S, der aus N durchnummerierten Zuständen besteht.

Betrachtet man nun eine Zufallsfolge Q = q1, . . . , qT mit qt aus S, so beschreibt i die Startwahrscheinlichkeit für den Zustand si:

Für jeden Wechsel von einem Zustand si nach sj gibt es zudem eine Übergangswahrscheinlichkeit aij, die in der Matrix A beschrieben sind:

Sei: S = a,b,c,...,x,y,z (zur Vereinf.: Buchst. statt Laute)

Die Wahrscheinlichkeit, dass auf „q“ „u“ oder auf „g“ „e“ folgt sehr gross, hingegen unwahrscheinlich dass auf „g“ „k“ folgt.

Page 13: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Künstliche Neuronalen Netze:Ein künstliches neuronales Netz (KNN) ist der Versuch, die neuronalen Schaltvorgänge im Gehirn des Menschen zu simulieren und so ein System zu schaffen, das in der Lage ist zu lernen und Muster klassifizieren zu können.

Ein KNN lernt das Klassifizieren, indem man ihn mit gen¨ugend Trainingsdaten füttert.

Probleme:

• Die Trainingsmenge muss möglichst ausgewogen sein.

• Es kann vorkommen, dass KNNs die Trainingsdaten auswendig lernen (Overfitting) und Daten, die nicht aus der Trainingsmenge stammen nicht richtig klassifizieren können.

Page 14: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Wie kommt man nun von den Merkmalsvektoren zu den Lauten?

Merkmalvektoren Wahrscheinlichkeit(Laut)

HMM

&

KNN

Worterkennung:

Diese Liste mit den Wahrscheinlichkeiten für die Laute wird nun verwendet, um mit Hilfe eines Wörterbuches eine weitere Liste zu generieren, welche die wahrscheinlichsten Wörter enthält. (Markov-Ketten?)

Sprachmodell:

Das Sprachmodell versucht anschließend, die Wahrscheinlichkeit bestimmter Wortkombinationen zu bestimmen. Dazu werden Grammatikmodelle oder Wortstatistiken verwendet.Solche sind Bi- oder Trigrammstatistiken. Sie speichern die Auftrittswahrscheinlich- keit von Wortkombinationen aus 2 oder 3 Wörtern. Diese Statistiken werden aus Beispieltexten gewonnen. „Vielen Dank“ wäre also wahrscheinlicher als „Fielen Dank“.

Page 15: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Ein Beispiel zu den Trigrammstatistiken:

Die folgende Liste enthält die häufigsten 20 Trigramme aus einem Korpus von mehreren hunderttausend Wörtern.

Page 16: Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Zusammenfassung des Erkennungsprozesses:

(Laute)

(Merkmalvekt.)