99
Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug Diplomarbeit im Fach naturwissenschaftliche Informatik vorgelegt von Ioannis Toptsis Betreut von: Dr.-Ing. Gernot A. Fink und Dr.-Ing. Franz Kummert Arbeitsgruppe Angewandte Informatik Technische Fakultät Universität Bielefeld Bielefeld, 23. April 2001

Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

  • Upload
    dokien

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug

Diplomarbeit im Fach naturwissenschaftliche Informatik

vorgelegt von

Ioannis Toptsis

Betreut von:

Dr.-Ing. Gernot A. Fink und Dr.-Ing. Franz Kummert

Arbeitsgruppe Angewandte Informatik Technische Fakultät Universität Bielefeld

Bielefeld, 23. April 2001

Page 2: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

2

Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine anderen als die angegebenen Quellen benutzt habe. Alle Ausführungen, die wörtlich oder sinngemäß übernommen wurden, sind als solche kenntlich gemacht. Bielefeld, 23. April 2001 Ioannis Toptsis

Page 3: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

3

Inhaltsverzeichnis 1 Einleitung 5

1.1 Einsatzgebiete der Spracherkennung ........................ 5

1.2 Problemstellungen ..................................................... 7

1.3 Ziel der Arbeit ........................................................... 8

2 Verfahren zur Geräuschkompensation 10 2.1 Vorverarbeitung des Signals 10

2.1.1 Digitalisierung ......................................... 11

2.1.2 Kurzzeitanalyse ....................................... 12

2.2 Klassische Filterung .................................................. 14

2.3 Einkanalige Verfahren ............................................... 15

2.3.1 Spektrale Subtraktion .............................. 16

2.3.2 Wiener Filter ............................................ 19

2.3.3 Referenz-Spektren ................................... 22

2.4 Zweikanalige Verfahren ............................................ 24

2.5 Mehrkanalige Verfahren ........................................... 26

2.6 Geräuschmodellierung mit HMMs ............................ 31

2.7 Training mit gestörten Daten ..................................... 36

2.8 Resume ...................................................................... 37

3 Angewendetes Verfahren 39 3.1 Auswahl des Verfahrens ............................................ 39

3.2 Anpassungen .............................................................. 41

4 Implementation 47 4.1 Entwicklungsumgebung ............................................ 47

4.2 Merkmalsberechnungsmodul .................................... 49

4.3 Geräuschkompensationsalgorithmus ......................... 51

4.3.1 Sprach-Pause-Detektion .......................... 51

4.3.2 Berechnung der Parameter ....................... 59

Page 4: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

4

4.3.3 Spektrale Subtraktion .............................. 62

4.3.4 Merkmalsberechnung .............................. 69

5 Evaluation 73 5.1 Konfiguration des Spracherkennungssystems ........... 73

5.2 Stichproben ................................................................ 74

5.3 Evaluationskriterien .................................................. 75

5.4 Experimente .............................................................. 77

5.4.1 Evaluation ohne entstörte Trainingsmenge .......................................

78

5.4.2 Evaluation mit entstörter Trainingsmenge .........................………..

79

Basisversion der Merkmalsberechnung .. 80

Erweiterte Merkmalsberechnung ........... 85

5.5 Ausblick .................................................................... 87

6 Zusammenfassung 88

Literaturverzeichnis 91 Glossar 93 Anhang 94

Page 5: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

5

Kapitel 1 Einführung Automatische Spracherkennung wird immer häufiger für die Steuerung von Geräten mittels gesprochenen Befehlen eingesetzt. Es gibt viele Geräte, die im Haushalt, am Arbeitsplatz oder in der Freizeit eingesetzt werden und deren Bedienung mehr oder weniger mühsam erlernt werden muß. Die Bedienung per Sprache wäre da hilfreich und einheitlich für verschiedene Geräte. Des weiteren werden die Geräte immer komplexer und mit mehr Funktionen ausgestattet. Als Folge bleiben meistens viele Funktionen vom Anwender ungenutzt. Es ist außerdem oft sehr zeitaufwendig eine bestimmte Funktion auszuwählen, auch wenn man die Bedienung gut beherrscht. Gesprochene Sprache kann daher neben dem Komfort auch einen Geschwindigkeitsvorteil bieten. Die Technologie der Spracherkennung hat erst in letzter Zeit einen Stand erreicht, der es ermöglicht, sie in einem breiten Anwendungsumfeld einzusetzen. Das Gebiet, in dem die automatische Spracherkennung anfänglich eingesetzt wurde, sind Diktiersysteme. Da Personal Computer in letzter Zeit die notwendige Leistung erreicht haben, um Spracherkennungsaufgaben in komplexeren Anwendungen zu verarbeiten, ist ein Zuwachs auch dieser Einsatz-gebiete zu verzeichnen.

1.1 Einsatzgebiete der Spracherkennung Der Einsatz der automatischen Spracherkennung erfolgt in ganz unterschied-lichen Bereichen. Ein Anwendungsfall sind Mobiltelefone, die eine Sprachanwahl erlauben. Sie benutzen dazu meist Verfahren, die einen Vergleich zwischen dem aufgenommenen und der sich im Speicher befindenden Referenzsignale durchführen, wobei auch eine nichtlineare Verzerrung der Zeit vorgenommen wird. Dabei wird der Abstand zwischen den Abtastwerten oder

Page 6: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

6

daraus errechneter Merkmale des gesprochenen und des gespeicherten Wortes mittels dynamischer Programmierung berechnet. Es wird dann das Wort mit dem kleinsten Abstand zum gesprochenen ausgewählt (vgl. z.B. [ST95] ). Dies ist eine recht primitive und einfache Technik, die aber wegen der geringen Hardwareressourcen im Mobiltelefon zur Zeit die beste Lösung ist. Ein anderes Einsatzgebiet ist die Steuerung und Kontrolle von Geräten mittels Sprache. Das können Personal Computer, Mailboxen über Telefon, Maschinen oder Haushaltsgeräte sein. Der Wortschatz ist hier auf eine Menge von Kommandos beschränkt, die meist als Einzelwörter gesprochen werden. So ist zwar eine bessere und mit mehr Aufwand verbundene Erkennung notwendig, aber sicher nicht die schwierigste Anwendung für Spracherkennung. Ab hier werden statistische Verfahren verwendet, die auch die meistverwendete Technik in der Spracherkennung darstellen. Sie basieren auf stochastischen Modellen, die vorher mit passenden Daten trainiert wurden. Abb. 1.1.1: Verarbeitungsstufen eines gängigen Spracherkennungssystems Ein weiterer Anwendungsfall ist das Auto. Dort werden immer mehr elektronische Geräte eingesetzt, wie Radio, CD-Wechsler, Telefon, Klimaanlage und Navigationssysteme. Um durch die Bedienung nicht die Aufmerksamkeit des Fahrers von der Straße abzulenken, werden diese Geräte immer mehr durch Sprache gesteuert. Es müssen hier sogar ganze Sätze, die einen Befehl darstellen, verarbeitet werden. Ein anderes Einsatzfeld sind Auskunftssysteme von Bahn- und Fluggesell-schaften sowie anderen Einrichtungen, die über Telefon abgefragt werden

Vorver-

arbeitung

Sprach- modell

Wahrschein-lichste Wortfolge

Sprach- signal

Akustisches

Modell

Page 7: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

7

können. Mit der gleichen Methode kann man auch Reservierungen vornehmen. Das können Flug- bis hin zu Kinotickets sein. Das Gebiet, das die höchsten Anforderungen an die Spracherkennung stellt, ist das der Diktiersysteme. Sie laufen mittlerweile auch auf normalen Personal Computer, da die Rechenleistung erst in letzter Zeit ausreichend groß geworden ist. Der Wortschatz solcher Systeme muß Zehntausende von Wörtern umfassen. Da diese Systeme kontinuierlich gesprochene Sprache verarbeiten können, reicht ein rein akustisches Modell mit HMMs nicht aus. Es wird zusätzlich ein linguistisches Sprachmodell verwendet, das die Wahrscheinlichkeiten für das Auftreten der einzelnen Wortfolgen angibt. Solche Systeme können auch auf spezielle Anwendergruppen zugeschnitten sein, wie z.B. für Rechtsanwälte oder Radiologen. Dies sind die wichtigsten Einsatzgebiete der automatischen Spracherkennung, zu denen aber immer mehr dazukommen. Somit eröffnet sich eine große Anzahl von Anwendungsmöglichkeiten, die alle ihre eigenen Problemstellungen mitbringen.

1.2 Problemstellungen Um ein Spracherkennungssystem einsetzen zu können, muß es vorher trainiert werden. Dies geschieht mit möglichst vielen und repräsentativen Daten, die möglichst alle Anwendungsfälle abdecken. Solche Daten werden normalerweise unter guten Aufnahmebedingungen, wie in einer leisen Laborumgebung und mit guten Mikrofonen, aufgenommen. Dies entspricht aber nicht immer der tatsächlichen Umgebung während des Betriebs des Spracherkennungssystems. Dennoch wird häufig auf diese eher unrealistischen Daten zurückgegriffen, weil Sprachaufnahmen aus der typischen Anwendungsumgebung oft schwer zu beschaffen sind. Bei automatischen Auskunfts- und Buchungssystemen wird das Sprachsignal über die Telefonleitung empfangen. Das hat eine Reduktion der Signalband-breite, zusätzliche Störgeräusche sowie eine Verzerrung des Sprachsignals zur Folge. Ein System, das auf Labordaten mit guter Qualität trainiert wurde, zeigt in solchen Fällen eine drastische Minderung der Erkennungsrate. In diesem Fall

Page 8: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

8

wäre es sinnvoll, das System mit Daten, die aus der Telefonleitung aufge-nommen wurden, zu trainieren, da die Charakteristik der Verzerrungen und Störungen ähnlich ist. Es gibt aber auch Verfahren, in denen eine Kanaladaption vorgenommen und so die Spracherkennung kanalunabhängig gemacht wird, wie z.B. durch die cepstrale Mittelwertbereinigung (vgl. auch [WS97]). Aber Variationen der Störung oder unerwartete Störgeräusche können dadurch nicht beseitigt werden. In anderen Fällen, kann das Problem jedoch nicht so gelöst werden. Solche Fälle sind Spracherkennungssysteme im Auto oder in Industrieumgebung. Hier treten Störgeräusche im Hintergrund auf, die meist unterschiedlich und variabel sind, wie z.B. Motor- und Karosseriegeräusche, vorbeifahrende Fahrzeuge, Windgeräusche oder im Hintergrund sprechende Personen. Solche Störsignale sind immer unterschiedlich, wie z.B. Geräusche verschiedener Motoren oder Fahrzeugtypen bei verschiedenen Geschwindigkeiten. Sie können daher nicht einfach von Anfang an vom System mittrainiert werden. Ein weiteres Problem ist die Spracheingabe selbst, d.h. was für ein Mikrofon benutzt wird. Die besten Resultate lassen sich mit Headsets erzielen, da das Sprachsignal viel stärker als die anderen Umgebungsgeräusche empfangen wird und so der Signal-Rausch-Abstand (SNR) am größten ist. Nun ist dies aber oft nicht möglich oder störend, wie z.B. beim Autofahren. Deshalb werden entfernt vom Sprecher platzierte Mikrofone benutzt, so daß der Signal-Rausch-Abstand verringert wird und deutlich mehrere Umgebungsgeräusche aufgenommen werden. In einigen Fällen erreicht der Signal-Rausch-Abstand im Auto sogar sehr niedrige Werte, was die Leistung jedes Spracherkennungssystems erheblich herabsetzen kann. Die Problematik ist aber schon seit längerem bekannt und es wurden bis jetzt mehrere Lösungen mit unterschiedlichen Erfolgsresultaten realisiert. Störend ist ebenfalls der Nebeneffekt, daß bei einer Umgebung mit hohem Geräuschpegel die Menschen lauter und deutlicher zu reden versuchen und so das Klangbild der Sprache zusätzlich verändern, was als Lombard-Effekt bekannt ist. Da solche Problemfälle die Leistung von Spracherkennungssystemen reduzieren, muß nach geeigneten Lösungen gesucht werden, um sie möglichst weitgehend zu unterdrücken.

Page 9: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

9

1.3 Ziel der Arbeit Ziel der Arbeit ist es, Störgeräusche die im Fahrzeug entstehen, zu unterdrücken. Beim SLACC-Projekt (Spoken Language Car Control) der Arbeitsgruppe Angewandte Informatik in der Technischen Fakultät der Universität Bielefeld in dem ein Spracherkennungssystem für die Steuerung von nicht sicherheits-relevanten Funktionen im Auto entwickelt wird, stößt man auf die oben genannten Probleme. Ziel dieser Arbeit ist deshalb, diese Probleme so zu lösen, daß eine möglichst gute und akzeptable Erkennungsrate erreicht wird. Das Kriterium für eine Verbesserung der Signalqualität wird nicht auditiv sein, sondern allein die Worterkennungsrate. Auf manche Probleme, wie das der Veränderung der Aussprache in lauter Umgebung (Lombard-Effekt), wird nicht weiter eingegangen, da sie nicht in die Kategorie der Störgeräuschunterdrückung fallen und nicht mit den dazugehörigen Verfahren gelöst werden können. Vorteilhaft wäre es, die Störgeräuschreduktion in der Vorverarbeitung des Signals vorzunehmen, damit diese Lösung als Modul auch für andere Spracherkennungssysteme verwendet werden kann. Außerdem sollten die beschränkten Hardwareressourcen im Auto berücksichtigt werden, damit ein Echtzeitbetrieb möglich ist. Die Lösung sollte also gut funktionieren, relativ einfach und allgemein einsetzbar sein. Das folgende Kapitel gibt einen Überblick über die wichtigsten und gängigsten Verfahren zur Störgeräuschunterdrückung, die in mehreren Gruppen zusammen-gefaßt werden. In Kapitel 3 wird das Verfahren, das für diese Arbeit ausgewählt wurde, näher vorgestellt und die Kriterien für dessen Auswahl erläutert. Außerdem werden notwendige Anpassungen und Erweiterungen beschrieben. In Kapitel 4 wird schließlich auf die Implementierung des Verfahrens eingegangen. Es wird die Entwicklungsumgebung, die Zielplattform und hauptsächlich der Lauf der technischen Umsetzung beschrieben. Das 5. Kapitel befaßt sich mit der Evaluierung. Die einzelnen Experimente, die dazu verwendeten Daten, sowie die Ergebnisse werden im einzelnen aufgeführt. Eine Zusammenfassung schließt diese Arbeit ab.

Page 10: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

10

Kapitel 2 Verfahren zur Geräuschkompensation Störgeräusche entstehen in der Umgebung der Sprachsignalquelle und sind dem Sprachsignal näherungsweise additiv überlagert. Diese Geräusche können eine sehr unterschiedliche Charakteristik sowohl im Frequenz- als auch im Zeitbereich aufweisen. So gibt es impulsartige Störungen, die eine geringe Dauer haben, und (quasi-)stationäre Geräusche, die sich nicht oder nur langsam ändern. Zur ersten Kategorie gehört z.B. das Blinkergeräusch im Auto und zur zweiten das Motorgeräusch bei konstanter Fahrtgeschwindigkeit. So kann man erkennen, daß es eine große Vielfalt an Störsignalen gibt, die zu analysieren sind. Um die Signale durch einen Rechner analysieren und verarbeiten zu können, müssen sie zuvor digitalisiert werden. Nach der Analyse und der Ableitung einiger Parameter werden Merkmale extrahiert, die das Signal möglichst charakteristisch beschreiben und so für den weiteren Erkennungsprozess verwendet werden. Außerdem entsteht dadurch eine Reduktion des Datenumfangs, was für die Spracherkennung aber nebensächlich ist. Da diese Verarbeitungsschritte für das Verständnis der Geräuschkompensationsverfahren sehr nützlich sind, wird zunächst darauf eingegangen. Abb. 2.1: Verarbeitungsstufen des Eingangssignals sowie Stellung der

Geräuschkompensation.

Vorver-

arbeitung

Geräusch-

kompensation

Merkmals- extraktion

Signal

Merkmale

Page 11: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

11

2.1 Vorverarbeitung des Signals Wie in Abbildung 2.1 zu sehen ist, bildet die Vorverarbeitung die erste Stufe im Spracherkennungssystem. Danach folgt die Merkmalsextraktion, welche in dem Abschnitt „Kurzzeitanalyse“ näher behandelt wird. Die meisten Geräusch-kompensationsverfahren setzen zwischen diesen beiden Modulen an.

2.1.1 Digitalisierung Durch das Mikrofon erhält man ein kontinuierliches Signal, welches durch einen Analog-Digital-Wandler (ADC, Analog-Digital-Converter) in ein diskretes konvertiert und in einen endlichen Wertebereich abgebildet wird. Die zwei entscheidenden Faktoren dabei sind die Abtastrate (Sampling-Rate) und die Auflösung. Die Abtastrate sollte gemäß dem Abtasttheorem (vgl. z.B. [ST95] ) doppelt so groß wie die höchste zu analysierende Frequenz im Signal sein. Damit die noch höheren Frequenzen keine Störeinflüsse ausüben, werden sie vorher durch ein Tiefpass herausgefiltert. Für Sprache wird eine Bandbreite von 20 Hz bis 8 kHz oder 10 kHz meistens als ausreichend angesehen, so daß mit einer Frequenz von 16 kHz oder 20 kHz das Sprachsignal abgetastet werden kann. Der andere Faktor ist die Auflösung, welche die Größe der einzelnen Abtastwerte (Samples) in Bits angibt. Je mehr Bits für die Kodierung eines Abtastwertes verwendet werden, desto feiner wird die Auflösung des zeitdiskreten Signals. Obwohl 8 Bit (256 Quantisierungsstufen) schon genügen, um ein Sprachsignal zu digitalisieren, entsteht durch die relativ geringe Menge an Stufen ein sogenannter Quantisierungsfehler, der sich als Rauschen im digitalisierten Signal bemerkbar macht. Deshalb ist es besser eine Auflösung von 16 Bit (65.536 Quantisierungs-stufen) zu verwenden, um solche Störeinflüsse zu minimieren.

Page 12: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

12

2.1.2 Kurzzeitanalyse Sprachsignale sind nicht stationär. So lassen sich Parameter wie Signalenergie oder Frequenz, die für die weitere Verarbeitung des Signals notwendig sind, nicht eindeutig ermitteln. Wenn man aber das Signal in einem kurzen Zeitraum betrachtet, kann es als stationär angesehen werden, da sich die oben genannten Parameter nicht beliebig schnell ändern. So wird das Signal in kurze Zeitabschnitte (Frames) von einer Länge zwischen 5 und 30 ms unterteilt, auf dem die weitere Verarbeitung basiert. Zur Glättung wird das Signal mit einer Fensterfunktion multipliziert. Im einfachsten Fall ist dies ein Rechteckfenster. Da aber die steilen Kanten des Fensters störende Anteile im Frequenzbereich verursachen, werden in der Praxis meist andere Fensterfunktionen mit weich abfallenden Rändern verwendet. Solche Fensterfunktionen sind z.B. Dreieck-, oder Hamming-Fenster. Oft werden die Fenster zeitlich auch so angeordnet, daß sie sich überlappen und die Dämpfung durch die Fensterfunktion so gering gehalten wird. Weil die nächsten Verarbeitungsstufen sich auf diese Frames beziehen, wird dieser Vorgang auch Kurzzeitanalyse genannt und dient zur Ermittlung statischer Merkmale des Signals. Die Berechnung der Parameter kann im Zeit- oder im Frequenzbereich geschehen. Häufige Untersuchungen im Zeitbereich sind die Ermittlung der Nulldurchhangs-Rate, die Autokorrelationsfunktion und die Ermittlung der Signalenergie. Durch die Analyse der Nulldurchgangsrate kann zunächst eine grobe Aussage über die Grundfrequenz des Signals gemacht werden. Außerdem hilft es bei der Unterscheidung zwischen stimmhaften und stimmlosen Sprachsegmenten. Mit der Autokorrelationsfunktion können ebenfalls stimmhafte und stimmlose Laute deutlich unterschieden werden. Die Signalenergie ist vor allem beim Einordnen von Lauten in Phonemgruppen nützlich, da diese Gruppen häufig charakteristische Energiewahrscheinlichkeiten besitzen. Aber auch für die Berechnung des Signal-Rausch-Abstandes ist ihre Ermittlung notwendig. Der wichtigste Teil der Analyse und die Berechnung der Merkmale findet im Frequenzbereich statt. Mittels Fourieranalyse wird das Signal vom Zeit- in den Frequenzraum transformiert und so das Frequenzspektrum gewonnen. Für zeitdiskrete Signale wird die Diskrete Fourier-Transformation (DFT) verwendet.

Page 13: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

13

Danach findet häufig eine Filterung mit einer Mel-Filterbank statt. Sie besteht aus einer Reihe von Bandpassfiltern, die gemäß der Mel-Skala über den Frequenzbereich verteilt sind. Damit wird eine gehörrichtige Verzerrung des Sprachsignals erreicht. So wird das menschliche Gehörsystem nachgeahmt, was zu einer besseren Erkennungsrate führt. Die Koeffizienten des Spektrums können noch nicht als Merkmale für den Spracherkennungsprozess verwendet werden, da sie wenig Information über die Modellcharakteristik des menschlichen Sprachproduktionsmodells enthalten. Deshalb wird meist das Verfahren der Cepstralen Analyse angewendet. Um ein Cepstrum zu erhalten, logarithmiert man das Spektrum, wodurch man das Leistungsdichtespektrum (LDS) erhält, und führt anschließend eine inverse Fourier-Transformation durch. Dadurch sind aus dem Sprachsignal Informationen über die Anregungsfrequenz sowie die Übertragungsfunktion des Vokaltraktes extrahierbar. Es entstehen im niederen (pseudo-) Zeitbereich charakteristische Spitzen, welche die Merkmale der Übertragungsfunktion beinhalten. Es gibt noch eine andere Analyseart, welche aber teilweise im Zeit- und teilweise im Frequenzbereich stattfindet. Dies ist die lineare Vorhersage (LPC). Hier wird versucht, aufgrund der vorhergegangenen Abtastwerte im Sprachsignal den als nächstes folgenden zu bestimmen. Dabei wird der neue Abtastwert als Linearkombination der vorhergehenden dargestellt, wobei die notwendigen Koeffizienten berechnet werden müssen. Diese Koeffizienten beschreiben ein Sprachsignal vollständig. Nach einer Fouriertransformation dieser Vorhersage-koeffizienten, erhält man ein Modellspektrum, aus dem Merkmale extrahiert werden können. Das sind im allgemeinen die Stufen vor und während der Merkmalsgewinnung. Die meisten Verfahren zur Geräuschkompensation setzen zwischen der Vorverarbeitung und der Merkmalsextraktion an, obwohl es manche gibt, die mit in die akustische Modellierung einbezogen werden. Als nächstes werden die gängigsten Verfahren vorgestellt. Eine Abwägung der Vor- und Nachteile schließt dieses Kapitel ab.

Page 14: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

14

2.2 Klassische Filterung Eine Möglichkeit, Störgeräusche effizient aus dem Signal zu entfernen, ist die Filterung mit einem geeignetem Filter. Je nach Lage der Frequenzen der Störung kann ein Tief-, Hoch- oder Bandpass mit den entsprechenden Grenzfrequenzen verwendet werden, wie in Bild 2.2.1 zu sehen ist. Das kann aber nur geschehen, wenn die Frequenzbereiche vom Stör- und vom Nutzsignal klar voneinander getrennt sind oder sich minimal überlappen. Bei einer deutlichen Überlappung der Bereiche kann man diese Methode nicht anwenden, da dann Teile des Nutzsignals entfernt werden.

A

f Nutzsignal Abb. 2.2.1: Störgeräuschkompensation durch Tiefpass-Filterung

Störsignal

Tiefpass-Filter

Page 15: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

15

Da die Störgeräusche im Auto aber im Bereich des Sprachsignals liegen, hilft dieses Verfahren hier nicht weiter. Es muß nach anderen Lösungen gesucht werden, die zwar die Störung nicht ganz entfernen, aber zumindest stark reduzieren können.

2.3 Einkanalige Verfahren Einkanalige Verfahren verwenden nur einen Kanal oder ein Mikrofon zur Sprachsignalaufnahme, wohingegen Mehrkanalige Verfahren mehrere Mikrofone in einer bestimmten Anordnung verwenden. Einige der Einkanaligen Verfahren werden auch als Teile in Mehrkanaligen verwendet. Daher ist eine solche Unterteilung nicht immer eindeutig. Sie bezieht sich lediglich auf das jeweilige Prinzip.

2.3.1 Spektrale Subtraktion Bei der Spektralen Subtraktion geht man von der Annahme aus, daß das Stör-signal dem Nutzsignal additiv überlagert ist, wie in Bild 2.3.1.1 zu sehen ist. Weiterhin wird angenommen, daß die beiden Signale nicht miteinander korreliert sind und daß das Störsignal stationär ist oder sich nur sehr langsam ändert.

( ) ( )ksks!

ˆ = Abb. 2.3.1.1: Filterung eines Signals zur Störreduktion

+

s(k)

n(k)

x(k)

h(k)

Page 16: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

16

Die zentrale Idee bei diesem Verfahren ist, das Störsignal während der Sprechpausen, in denen es unabhängig vom Sprachsignal zu beobachten ist, zu erfassen, um es dann vom Nutzsignal zu subtrahieren. Dies wird im Frequenzraum durchgeführt. Während jeder Sprachpause wird das Störsignal neu ermittelt und die Koeffizienten für die Subtraktion entsprechend angepaßt. Daher spricht man von einem adaptiven Filter. Die Formel dafür ist folgende:

( ) ( ) ( )( ) ( ) bbbfNfSNRfYfX ⋅−= α

wobei f Frequenz

( ) bfY Gestörtes Sprachsignal (Eingang)

( ) bfX Geschätztes Nutzsignal (Ausgang)

( ) bfN Gemitteltes Störsignalspektrum

b Bei Verwendung von Amplitudenspektren b=1 und bei Leistungsspektren b = 2.

Der Faktor α ist für die Gewichtung des abzuziehenden Spektralanteils zuständig. Er ist umgekehrt proportional zum Signal-Rausch-Abstand (SNR). Je kleiner der Signal-Rausch-Abstand ist, desto größer der zu subtrahierende Anteil. Die Formel kann mit Bezug auf lineare Systeme auch in anderer Form geschrieben werden. Dann wird das Verfahren als eine spektrale Gewichtung mit den Faktoren einer Übertragungsfunktion, wie in Bild 2.3.1.2 dargestellt, aufgefaßt:

( ) ( ) ( )fHfYfXbb ⋅=

Page 17: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

17

wobei H(f) die Übertragungsfunktion des Filters ist:

( ) ( ) ( )( ) ( )( ) b

bb

fY

fNfSNRfYfH

⋅−=

α

Das Störgeräuschspektrum wird über die ganze Pause aufgenommen und durch Mittelwertbildung nach folgender Formel errechnet:

( ) ( )∑−

==

1

0

1 K

i

b

i

bfN

KfN

wobei K die Anzahl der Pausen-Frames ist. Es gibt noch die Möglichkeit, Frames aus vorherigen Pausen gewichtet hinzuzunehmen, was u.U. die Robustheit erhöhen kann. Wichtig ist, daß sich das Störsignal während des Abschnitts, in dem Sprache vorliegt, nicht ändert, sonst ist das Entrauschen fehlerhaft und kann das Signal sogar u.U. verschlechtern.

0S

1S S

� ( ) ( ) ( )fHfXfS µµµ ⋅=ˆ �

−MS Abb. 2.3.1.2: Prinzip der Spektralen Subtraktion durch spektraler Gewichtung

mit den reelwertigen Faktoren von ( )fH

x = s + n

X0

X1

XM-1

Spektral- Analyse

Spektrale Subtraktion

Spektral- Synthese

Page 18: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

18

Wir haben bis jetzt gesehen, daß nur die Betragsspektren für die Berechnungen verwendet werden. Die Phase wird nicht mit einbezogen, weil Phasen-schätzungen während der Pausen unmöglich sind. Daher kann eine Phasenkorrektur nicht angewendet werden. Das ist jedoch nicht problematisch, da Phasenfehler weniger kritische Auswirkungen als Betragsverfälschungen haben. Von ebenfalls zentraler Bedeutung ist eine gut funktionierende Sprach/Pause-Detektion (VAD, Voice Activity Detection), damit die Pausen erkannt werden und so die Subtraktions-Koeffizienten immer wieder neu angepaßt werden. Eine andere Möglichkeit liegt darin, im Sprachsignal Minima zu suchen und so die Pausen zu detektieren. Dies ist jedoch sehr ungenau und wird daher selten verwendet. Manchmal kann es vorkommen, daß die Subtraktion zu einem negativen Ergebnis, d.h. einer Überschätzung des Störspektrums führt, was zu störenden Nebeneffekten führen kann, die als musical tones bekannt sind. Diese Reststörungen verleihen dem Ausgangssignal eine künstliche Klang-charakteristik, die nicht dem ungestörten Sprachsignal entspricht. Solche Störungen können bei dem Spracherkennungsprozeß negative Auswirkungen haben. Obwohl es verschiedene Lösungsansätze gibt, um diese Reststörungen zu minimieren, stellen sie den Hauptnachteil dieses Verfahrens dar. Weitere Nachteile der Spektralen Subtraktion sind das Problem bei Instationarität der Störgeräusche sowie der Bedarf einer guten Sprach-Pausen-Detektion. Wenn diese Detektion nicht gut funktioniert, wird auch die beste Filterung danach versagen. Trotz dieser Nachteile ist es ein sehr breit eingesetztes Verfahren. Obwohl an vielen Stellen Verbesserungen und Anpassungen vorgenommen werden, baut es im Prinzip immer auf der gleichen Basistechnik auf. Die Vorteile dieses Verfahrens spielen in vielen Fällen eine größere Rolle als die Nachteile. Zu den Vorteilen zählt die einfache Implementierungsmöglichkeit, die schon geprüfte Funktionstüchtigkeit und die, in Relation zu anderen Verfahren geringen Anforderungen an Hardwareressourcen. Daher lassen sich damit schnelle und einfache Lösungen realisieren.

Page 19: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

19

2.3.2 Wiener Filter Dieses Verfahren basiert auf der Technik der Optimalfilterung, deren Gleichungen in den vierziger Jahren von dem Mathematiker Norbert Wiener hergeleitet wurden. Dieses Filter, das nach ihm benannt wurde, ermöglicht das Entfernen von Störungen anhand statistischer Eigenschaften des Signals. So wird wie bei der Spektralen Subtraktion angenommen, daß die Störung dem Nutzsignal additiv überlagert ist. Außerdem werden die beiden Signale als miteinander unkorreliert und stationär angesehen. Wie in Abb. 2.3.1.1 dargestellt, wird das gestörte Signal von einem System gefiltert, das die Impulsantwort ( )kh bzw. die Übertragungsfunktion ( )kH

besitzt. So entsteht das Signal ( )ks , das das Nutzsignal ( )ks möglichst gut approximieren soll. Als Optimierungs-Kriterium wird die Minimierung des mittleren quadratischen

Fehlers 2e verwendet [VR98]:

( ){ } ( ) ( )( ){ } .min!

ˆ 222 =−== ksksEkeEe Daraus folgt nach [VR98]:

( ) ( ) ( )

−−= ∑

−∞=

2

2

κκκ kskxhEe

Page 20: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

20

Zur Minimierung muß 2e nach den Größen ( )ih abgeleitet werden und die Ableitungen sind zu Null zu setzen. So entsteht ein lineares Gleichungssystem der Form:

( ) ( ) ( )iih xsxx φκφκκ

=−∑∞

−∞=

wobei

xxφ Autokorrelation des gestörten Signals

xsφ Kreuzkorrelation zwischen gestörtem Signal und Nutzsignal So sieht also die Lösung im Zeitbereich aus. Sie ist aber kompliziert und setzt die Kenntnis der Autokorrelationsfunktion von Stör- und Nutzsignal voraus. Diese Größen können jedoch nur näherungsweise geschätzt werden. Einfacher scheint es im Frequenzbereich zu sein. Durch Fouriertranformation und Faltung der oben dargestellten Formel erhält man folgende Übertragungsfunktion für das Wiener-Filter:

( ) ( )( ) ( )ωω

ωω

jnn

jss

jssj

ee

eeH

Φ+Φ

Φ=

wobei ( )ωj

ss eΦ das Leistungsdichtespektrum des Nutzsignals und ( )ωjnn eΦ das

des Störsignals ist. Das Gesamtspektrum wird in den Bereichen, in denen Nutz- und Störsignal merklich vorhanden sind, abgesenkt, in Bereichen ohne Störung unverändert gelassen und dort, wo die Störung überwiegt, stark reduziert. Da das Filter ein Tiefpaßverhalten aufweist, klingen die gefilterten Signale zwar entstört, aber dumpf. Deshalb kann Anstelle von ( )ωjeH die Übertragungsfunktion

Page 21: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

21

( )( )ηωjeH verwendet werden, wodurch eine Variation der Filterfunktion mit dem Faktor η erreicht wird. Da die Annahmen bezüglich Stationarität in der Praxis nicht erfüllt sind, arbeitet man auf Kurzzeitbasis, wo diese Annahmen näherungsweise zutreffen. So erhält man folgende Übertragungsfunktion:

( ) ( ) ( )( ) 2

22

fY

fNfYfH

−=

wobei ( ) 2fY das Leistungsspektrum des gestörten Signals und ( ) 2

fN das

Leistungsspektrum des Störsignals ist. Alle Spektren sind über die Dauer der Sprache oder Pause gemittelt. Da Optimalfilter null- bzw. linearphasig sind, werden die Phasenbeziehungen zwischen Stör- und Nutzsignal nicht verändert. Daraus ist ersichtlich, daß das Verfahren mittels Wiener-Filter sehr ähnlich mit dem der spektralen Subtraktion ist. In Wirklichkeit ist die spektrale Subtraktion ein Spezialfall des Wiener-Filters, wo nur das Störgeräusch gemittelt wird. Beim Wiener-Filter hingegen wird auch das Nutzsignal gemittelt in die Rechnung miteinbezogen. Ein anderer Unterschied ist, daß bei der spektralen Subtraktion meist das Amplitudenspektrum verwendet wird, im Gegensatz zur Wiener-Filterung, wo mit dem Leistungsspektrum gerechnet wird. Das Wiener-Filter ist im Frequenzbereich etwas aufwendiger als die spektrale Subtraktion. Im Zeit-bereich wird es selten realisiert. Es gibt aber auch Anwendungsfälle, in denen eine Kombination beider Verfahren verwendet wird, was aber zu vergleichbaren Resultaten führt.

Page 22: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

22

2.3.3 Referenz-Spektren Eine weitere Lösung zur Beseitigung von Störgeräuschen bietet die Verwendung von Referenz-Spektren. Sie basieren auf gespeicherten Profilen von verschiedenen Störgeräuschen, die dann zu deren Beseitigung verwendet werden. Das kann gut funktionieren, wenn die Störungen, die dem Nutzsignal überlagert sind, immer eine ähnliche Charakteristik aufweisen. Das können z.B. Rauschprofile von einer Maschine mit gleichbleibendem Geräusch oder einem gleichartigen Rauschen einer Telefonleitung sein. Aber Störgeräusche mit variierender Charakteristik, wie sie im Auto vorhanden sind, können mit dieser Methode nicht beseitigt werden. Hier sind die adaptiven Verfahren deutlich besser geeignet. Eine interessante Möglichkeit bietet nach [HP00] die Verwendung aktueller Fahrtdaten des Fahrzeugs, wie z.B. Geschwindigkeit oder Motordrehzahl, zur Berechnung solcher Rauschprofile. Es wird damit eine dynamische Anpassung auch während der Sprachsegmente ermöglicht. Die Fahrzeugdaten, die während der Fahrt ermittelt und verwendet werden, sind die Motordrehzahl und die Fahrzeuggeschwindigkeit. Es werden drei verschiedene Geräuscharten betrachtet: Motor-, Wind- und Reifengeräusche. Das Motorgeräusch ist in seiner Frequenzcharakteristik von der Motordrehzahl abhängig. Die harmonischen Resonanzfrequenzen verschieben sich mit steigender Drehzahl zu höheren Frequenzwerten. Dabei sind die Harmonischen proportional zur halben Motordrehzahl und besonders ausgeprägt im niederen Frequenzbereich (bis 500 Hz). So kann das Motorgeräuschprofil auch während der Sprachsegmente durch Kenntnis der Motordrehzahl geschätzt werden, wo sonst die konventionellen einkanaligen Verfahren keine Adaption an das Störgeräusch vornehmen können. Da für das Entfernen dieser Harmonischen aus dem Sprachsignal eine sehr schmale Frequenzauswahl durchgeführt werden muß, gelingt dies im Spektralbereich durch die zu geringe Auflösung nicht zufriedenstellend, da Verzerrungen im Sprachsignal entstehen. So wird die Filterung im Zeitbereich mit IIR-Filtern höherer Ordnung durchgeführt, die ihre Parameter adaptiv an die aktuelle Motordrehzahl anpassen. Diese wird, wie in Bild 2.3.3.1 dargestellt, nach einer Aufspaltung des Signals in 8 Kanäle vorgenommen, wobei nur der erste Kanal gefiltert wird, weil darin die relevanten Frequenzen (bis 500 Hz) vorliegen. Die übrigen Kanäle werden ohne Filterung zur weiteren Verarbeitung durchgeschleift.

Page 23: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

23

Abb. 2.3.3.1: Geräuschkompensation mit Verwendung von Fahrzeugdaten Die Windgeräusche spielen wegen der relativ guten Aerodynamik heutiger Fahrzeuge erst bei höheren Geschwindigkeiten eine wichtigere Rolle. Sie sind von der Fahrzeuggeschwindigkeit abhängig und ändern sich nur im Pegel aber nicht in der Frequenz, wie bei den Motorgeräuschen. Das gleiche gilt auch für die Reifengeräusche, bei denen alle Frequenzen mit zunehmender Fahrzeuggeschwindigkeit etwa gleichermaßen angehoben werden. Die Wind- bzw. Reifengeräusche werden anders als das Motorgeräusch nur während der Sprachpausen geschätzt und dann gewichtet vom gestörten Signal subtrahiert. Dies erfolgt im Spektralbereich und erst nachdem das Motorgeräusch herausgefiltert wurde. Für die Subtraktion wird noch ein Gewichtungsparameter verwendet, der aus einer Approximation der Kennlinie der Geräuschpegel-änderung über die Fahrzeuggeschwindigkeit berechnet wird. Danach werden alle Kanäle zusammengeführt und so das entstörte Ausgangssignal erzeugt. Mit diesem Verfahren läßt sich eine gute dynamische Adaption erreichen, wobei jedoch eine erhöhte Hardwareanforderung wegen der benötigten Fahrzeugdaten und des Vorwissens über die Geräuschpegelkennlinien für das jeweilige Fahrzeug in Kauf genommen werden muß.

Motorgeräusch- Kompensation

8 – Kanal – Analyse 8 – Kanal – Synthese

.

.

.

.

.

.

Eingangs – Signal

Ausgangs – Signal

Spektrale Subtraktion

Wind - und Reifengeräusch – Kompensation

Page 24: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

24

2.4 Zweikanalige Verfahren Zweikanalige Verfahren stellen eine Untermenge der mehrkanaligen Verfahren dar. Sie werden jedoch getrennt behandelt, da sie nach einem anderen Prinzip arbeiten. Dabei werden zwei Mikrofone benutzt, die an verschiedenen Positionen angebracht sind. Das eine Mikrofon (Primärkanal) nimmt das Sprachsignal und das andere (Sekundärkanal) möglichst nur das Störsignal auf. So liefert das zweite Mikrofon das Störsignal, das vom ersten Kanal abgezogen wird, wodurch eine Geräuschkompensation erreicht wird. Das zweite Mikrofon muß daher möglichst nah an der Geräuschquelle liegen. Eine weitere Forderung ist die akustische Entkopplung der beiden Kanäle, was in der Praxis meist schwer zu realisieren ist. Das System sieht wie in Abb. 2.4.1 dargestellt aus.

( )ks

( )kn1ˆ Abb. 2.4.1: Prinzip der Geräuschkompensation mittels zwei Kanälen

+ + +

-

h(k)

h1(k)

s(k)

n2(k)

x1(k) = s(k) + n1(k)

x2(k) = n2(k)

Primärkanal

Sekundärkanal

n1(k)

Page 25: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

25

Die Störung ( )kn2 gelangt in das Nutzsignal ( )ks durch einen Übertragungs-

weg, der durch ein System mit der Impulsantwort ( )kh1 beschrieben wird, und

tritt dort als Störsignal ( )kn1 auf. So entsteht durch die additive Überlagerung

des Nutzsignals ( )ks durch das Störsignal ( )kn1 , das im Primärkanal

aufgenommene, gestörte Sprachsignal ( )kx1 . Die Idee bei der Kompensation mit zwei Kanälen ist, daß man das Störsignal

( )kn2 durch ein lineares System mit der Impulsantwort ( )kh so umformt, daß es

mit dem Störsignal ( )kn1 , welches das Nutzsignal überlagert, möglichst genau übereinstimmt. Danach wird es vom gestörten Sprachsignal subtrahiert und so die Störung kompensiert. Damit das funktioniert, muß die Impulsantwort ( )kh

(oder die Übertragungsfunktion ( )ωjeH ) mit der des Übertragungssystems der

Anwendung ( )kh1 (oder der Übertragungsfunktion ( )ωjeH1 ) übereinstimmen. Dieser Optimierungsansatz ist der gleiche, wie der für das Wiener-Filter, d.h. die Minimierung des mittleren quadratischen Fehlers. Mit den geeigneten Transformationen im Frequenzbereich und einer Faltung führt dies zur folgenden Formel [VR98]:

( ) ( )( )ω

ωω

jxx

jxxj

e

eeH

22

12

Φ

Φ=

wobei ( )ωj

xx e12

Φ die Fouriertransformierte der Kreuzkorrelation zwischen den

Signalen beider Kanäle und ( )ωjxx e

22Φ die Fouriertransformierte der Auto-

korrelationsfunktion vom Signal des Sekundärkanals ist. Damit läßt sich das Filter des Sekundärkanals berechnen. Dieses Verfahren funktioniert jedoch nur, solange die Übertragungsverhältnisse des Systems ( )ωjeH1 konstant bleiben. Das kann aber im Auto nicht immer gewährleistet werden, weil Variationen der akustischen Umgebung, wie z.B. Bewegungen des Sprechers, die Übertragungsfunktion verändern. So muß eine adaptive Lösung gefunden werden, womit man das Filter dynamisch anpassen kann.

Page 26: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

26

Diese Lösung ist die Verwendung von Kurzzeitgrößen. So kann die Formel für die Berechnung der Übertragungsfunktion durch Einsetzen von Kurzzeit-Spektralschätzungen folgendermaßen umgeformt werden:

( ) ( ) ( )( ) ,

2,2

,1,2

kX

kXkXkH

µ

µµµ

⋅= { }1,,1,0 −∈ M�µ

wobei µ der Index für die Spektren des Primärkanals ( )kX µ,2 und des

Sekundärkanals ( )kX µ,2 ist sowie für die Übertragungsfunktion selber. Diese

Spektralschätzungen werden Frame-weise durchgeführt, wobei jedes Frame M Abtastwerte enthält. In der Praxis sehen die Verhältnisse anders als in den idealisierten Annahmen aus. Zunächst einmal ist die Annahme, daß das Mikrofon des Sekundärkanals nah an der punktförmigen Störsignalquelle angebracht ist, im Auto nicht erfüllt. Dort kommen die Störgeräusche nicht von einer Quelle, sondern von mehreren und räumlich verteilten Quellen. Ein weiteres Problem ist, daß keine vollständige Entkopplung des Störsignals vom Nutzsignal erreicht werden kann. Durch diese Faktoren scheint dieses Verfahren nicht das am besten geeignete für die Geräuschkompensation im Auto zu sein. Dieses Verfahren wird aber angewendet, um bei Autotelefonen das Radiosignal zu kompensieren, was wegen der guten Referenzsignalaufnahme auch zufriedenstellend funktioniert.

2.5 Mehrkanalige Verfahren Bei den mehrkanaligen Verfahren werden die Kohärenzverhältnisse der Sprach-signale und der Störgeräusche aus der Umgebung verwendet, um eine Geräuschkompensation zu erzielen. Es werden dazu mindestens zwei Mikrofone benötigt, aber in den meisten Fällen verwendet man mehr, weil so die Leistungsfähigkeit erhöht wird. Diese werden flächenmäßig (planare Mikrofon-

Page 27: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

27

Arrays) oder längst einer Geraden (lineare Mikrofon-Arrays) in einer bestimmten und festen Position angebracht. Abb. 2.5.1: Allgemeine Struktur eines linearen Mikrofon-Arrays (nach

[VR98] ) Die Schallwellen des Sprechers erreichen die einzelnen Mikrofone zu unter-schiedlichen Zeiten, da die Wege vom Sprecher zu jedem Mikrofon unterschiedlich lang sind, wie in der Abbildung 2.5.1 zu sehen ist. Die verschiedenen Mikrofonsignale werden dann zeitlich unterschiedlich um die Dauer Ti verzögert, um sie in Phase zu bringen. So wird ein Laufzeitausgleich erreicht und alle N Mikrofonsignale erscheinen danach zeitgleich. Die folgende Formel beschreibt die Mikrofonsignale vor dem Laufzeitausgleich:

)()()( tnTtstx iii ++= { }Ni ,,1�∈

Wobei xi das Mikrofonsignal vor dem Laufzeitausgleich ist, s das korrelierte und phasenverschobene Nutzsignal und ni das unkorrelierte Störsignal. Durch den Laufzeitausgleich um die Dauer Ti gilt folgende Formel für die Mikrofonsignale:

)()()( iiiii TtnTTtstx −+−+=′

)(kx

T1

T2

T3

T4

a1

a2

a3

a4

Σ

x’1

x’2

x’3

x’4

x1

x2

x3

x4

Page 28: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

28

Danach findet eine Mittelwertbildung über alle N Mikrofonsignale statt, so daß sich folgende Formel für das resultierende Signal ergibt [VR98]:

( ) ( ) ( ) ( )( ) ( ) ∑∑∑===

+=−+−+=′=N

ii

N

iiiii

N

ii tn

NtsTtnTTts

Ntx

Ntx

111

)(111

Der Addition der verzögerten Nutzsignale geht eine geeignete Gewichtung

voraus, die dem Faktor N

1 in der Formel entspricht und in der Abbildung 2.5.1

mit ai dargestellt sind. Dabei ist N die Anzahl der verwendeten Mikrofone. Das resultierende Signal ( )tx stellt dabei das Nutzsignal dar, da alle Nutzanteile aus den Mikrofonsignalen miteinander korreliert sind und die unkorrelierten Störsignale durch diese Mittelwertbildung um bis zu 6 dB bei Verwendung von vier Mikrofonen kompensiert werden. Die Störreduktion in dB wird mit folgender Formel beschrieben [VR98]:

NSNR log10 ⋅=∆ Daraus erkennt man, daß die Kompensationswirkung des Arrays proportional zur Anzahl der verwendeten Mikrofone N ist. Dies trifft aber nur im Idealfall zu, in dem alle N Störungen miteinander unkorreliert sind. Das ist in der Praxis aufgrund von Motorgeräuschen oder diskreten Echopfaden jedoch schwer zu erreichen. Den Laufzeitausgleich kann man auch als Ausrichtung des Mikrofon-Arrays auf Schallwellen aus einer Vorzugsrichtung bezeichnen. So wird durch die räumliche Richtcharakteristik der Mikrofonanordnung eine räumliche Filterung erreicht. Solche Verfahren sind auch unter dem Namen Beamforming bekannt [VR98].

Das oben beschriebene Verfahren bildet die einfachste Form eines Beamformers, den sogenannten Delay-and-Sum-Beamformer [VR98]. Der Vorteil dieses Verfahrens ist seine hohe Robustheit gegenüber Exemplarstreuungen der Mikrofonübertragungseigenschaften. Nachteilig ist, daß eine relativ hohe Anzahl an Mikrofonen benötigt wird, um eine ausreichende Leistung zu erzielen. Der Hauptnachteil ist aber, daß es bei tiefen Frequenzen keine Geräusch-kompensation durchführt. Erst ab etwa 1500 Hz werden merkliche Resultate geliefert.

Page 29: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

29

Als Lösung für dieses Problem wird eine veränderte Mikrofonanordnung verwendet, die aus Sub-Arrays besteht. So haben die Mikrofone nur innerhalb eines Sub-Arrays gleiche Abstände und jedes Sub-Array besitzt verschiedene Abstände. So erhält man eine Anordnung, bei der die Mikrofone in der Mitte enger beianander positioniert sind und nach außen die Abstände weiter zunehmen, wie in der Abbildung 2.5.2 zu sehen ist. Zuerst werden die Mikrofonsignale der einzelnen Sub-Arrays miteinander addiert. Danach werden sie entsprechend tief-, band- oder hochpaßgefiltert und addiert wodurch sich eine höhere Kompensation bei niedrigen Frequenzen erreichen läßt. Nachteilig ist aber, daß relativ viele Mikrofone nötig sind. Solche Nachteile umgeht ein anderes Beamforming-Verfahren, das sogenannte Beamforming mit superdirektiver Richtcharakteristik. Solch einen Beamformer erhält man, wenn die Verzögerungselemente des Delay-and-Sum-Beamformers durch Filter mit geeigneten anpaßbaren Impulsantworten ai(t) ersetzt werden. In Abbildung 2.5.1 wären dies die Elemente nach den Verzögerungen, die mit ai gekennzeichnet sind und beim Delay-and-Sum-Beamformer die Rolle von Multiplikatoren für die Mittelwertbildung haben.

Σ

Abb. 2.5.2: Beamformer mit Sub-Array-Anordnung der Mikrofone (nach [SM96] )

Σ Σ

Σ

700 – 1400 Hz

1400 – 3400 Hz

100 – 700 Hz

1400 – 3400 Hz

700 – 1400 Hz

100 – 700 Hz

d1 = 5 cm

d2 = 10 cm

d3 = 20 cm

Page 30: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

30

Dieses Array weist eine wesentlich höhere Direktivität als der Delay-and-Sum-Beamformer auf. Um die Impulsantworten zu schätzen, verfolgt man einer Maximierung des Gewinns, d.h. der Verbesserung des Signal-Rausch-Abstandes. In der Praxis jedoch reicht es nicht, den Gewinn zu maximieren, da durch abweichende Mikrofon-Übertragungseigenschaften Probleme entstehen können. Deshalb muß die Superdirektivität des Arrays begrenzt werden. Die Übertragungsfunktionen Ai(f) der Array-Filter lassen sich durch Lösung der folgenden Gleichung bestimmen [VR98]:

( ) ( ) ( )∑=

+⋅−

=+L

m

iN

dc

fj

immi efApfAfh1

cos2

12

,

0θπ

mit Li ≤≤1 und ( )( )( )

( )

=

≠−

−=

mi

micdfmi

cdfmi

fh mi

,1

,/2

/2sin

, ππ

wobei f die Frequenzvariable, d der Abstand zwischen zwei benachbarten Mikrofonen und L die Anzahl der verwendeten Mikrofone ist. Wie in der Abbildung 2.5.1 zu sehen ist, wird mit 0ϑ der Winkel der Haupteinfallsrichtung

der Schallwellen bezeichnet. Der Parameter p dient zum Einstellen der Superdirektivität. Kleine Werte von p ( < 0.01) haben eine große Superdirektivität zur Folge und Werte über 100 führen auf den Delay-and-Sum-Beamformer. Die Impulsantworten ai(t) erhält man durch die inverse DFT der Übertragungsfunktionen Ai. Es sollte aber vorher eine Normierung durchgeführt werden, um eine Frequenzunabhängigkeit zu erhalten. Durch dieses Verfahren ist es möglich, auch mit wenigen Mikrofonen ein aus-geprägtes Richtverhalten zu erzielen und so auch bei niedrigen Frequenzen relativ gute Ergebnisse zu erhalten. Die bis jetzt erwähnten mehrkanaligen Verfahren erzielen eine Geräusch-kompensation mittels der Richtwirkung. Die Obergrenze für die Reduktion liegt bei etwa 6 dB. Eine noch höhere Geräuschkompensation erhält man, wenn zusätzlich ein adaptives Filter nachgeschaltet wird. Dies kann, wie in den

Page 31: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

31

meisten Fällen, ein Wiener-Filter, oder auch eines, das auf der Spektralen Subtraktion basiert, sein. Solche Verfahren bezeichnet man als Beamforming mit adaptiver Nachfilterung. Im einfachsten Fall wird das Filter nach einem Delay-and-Sum-Beamformer geschaltet und seine Parameter werden mit Hilfe der Mikrofonsignale nach dem Laufzeitausgleich adaptiv berechnet. Es kann aber auch jeder andere Beamformer verwendet werden. So kann eine Geräuschkompensation von bis zu 14 dB erreicht werden. Es gibt auch einige andere Varianten, bei denen eine Kombination von Wiener-Filter und einem Filter mit Spektraler Subtraktion verwendet wird [MS97]. Mit dem Wiener-Filter werden die hohen und mit dem anderen Filter die niedrigen Frequenzen des Signals nach dem Laufzeitausgleich verarbeitet. Dieses Verfahren ist effizienter als die einzelnen Filter. Die mehrkanaligen Verfahren liefern zur Zeit die besten Ergebnisse bei der Stör-geräuschunterdrückung. Es gibt neben der Geräuschkompensation auch andere Effekte, die als nützlich angesehen werden, wie z.B. die Enthallung des Sprachsignals und die Lokalisierung des Sprechers im Raum. Der größte Teil der Forschung im Gebiet der Geräuschreduktion geht folglich in diese Richtung, da sie die vielversprechenderen Ergebnisse liefert. Ein großer Nachteil dieser Verfahren ist die erhöhte Komplexität und der erforderliche Hardware-, bzw. Installationsaufwand. Weiterhin gibt es kein Verfahren, das eine vollständige Lösung für das Problem der zu niedrigen Kompensation bei tiefen Frequenzen bietet. Außerdem bieten sie auch keine befriedigende Lösung in Fällen, wo impulshafte oder stark instationäre Störgeräusche vorhanden sind. Eine weitere Möglichkeit zur Störgeräuschreduktion bieten Verfahren, die in die akustische Modellierung mit eingehen, also nicht rein signalbasiert sind, sondern auch statistische Methoden verwenden. Sie werden im folgenden Abschnitt ausführlicher dargestellt.

2.6 Geräuschmodellierung mit HMMs Zur Zeit basieren die meisten Spracherkennungssysteme auf einer Technik, die Wörter und Wortfolgen mittels statistischen Modellen beschreibt, den sogenannten Hidden-Markov-Modellen (HMM). Dabei werden Wahrschein-

Page 32: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

32

lichkeitsdichteverteilungen meistens cepstraler Merkmale verwendet, die das Signal gut charakterisieren. Da die Modelle meistens mit weitgehend ungestörten Sprachdaten trainiert werden, erfahren sie in gestörter Umgebung, wie in einem Fahrzeug z.B., einen deutlichen Leistungseinbruch. Man versucht deshalb bei einigen Verfahren, die Störgeräusche in die Modellierung miteinzubeziehen. Dabei wird neben den HMMs für die störungsfrei aufgenommenen Wörter zusätzlich ein HMM für die Störgeräusche verwendet. Die beiden Modelle werden dann kombiniert und so ein HMM für das gestörte Sprachsignal erzeugt. Dieses Verfahren wird auch Parallel Model Combination (PMC) genannt [YH95] und gilt als sehr robust gegenüber Störgeräuschen [GL93]. Um die Kombination der beiden Modelle durchzuführen, müssen die Parameter der Emissionswahrscheinlichkeitsdichten neu berechnet werden. Diese Parameter sind die Mittelwertvektoren und Kovarianzmatrizen der verwendeten Normalverteilungen. Die Formeln für die durch Modellkombination veränderten Parameter lauten:

Σ+Σ⋅=Σ

+⋅=~ˆ

~ˆ2g

g µµµ

wobei ( )Σ,µ die Parameter des HMMs für Sprache und ( )Σ~,~µ die Parameter der Störgeräusch-HMMs sind. Der Parameter g ist ein Verstärkungsfaktor zur Anpassung an das aktuelle Eingangssignal. Um die Parameter addieren zu können, müssen sie von dem Cepstral-, in den linearen Spektralbereich zurück transformiert werden, wie in Abbildung 2.6.1 dargestellt. Zuerst wird eine inverse DCT (Diskrete Kosinus-Tranformation) durchgeführt, so daß die Parameter sich dann im logarithmischen Bereich befinden. Durch eine Exponential-Funktion werden schließlich die Parameter in den Frequenzraum abgebildet. Nach der Addition wird der Transformationsvorgang in umgekehrter Richtung durchgeführt, um die neuen Parameter für das kombinierte Modell in cepstraler Form zu erhalten. Der Verstärkungsfaktor g wird aus den Signal-energien beider Modelle und des gestörten Eingangssignals, welches erkannt werden soll, berechnet.

Page 33: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

33

Abb. 2.6.1: Parallel Model Combination mit den benötigten Transformationen Das HMM für die Störungen kann im einfachsten Fall nur einen Zustand haben, was lediglich eine Modellierung von stationären oder quasistationären Störungen ermöglicht [GL93]. Bei stark instationären Störgeräuschen muß das HMM mehrere Zustände haben. Durch die Kombination mit dem Sprach-HMM entsteht ein dreidimensionaler Suchraum für den Erkennungsprozess. Der Suchalgorithmus wird als 3D-Viterbi-Decoding bezeichnet [GL93]. Dieses Verfahren kann noch ausgeweitet werden, um auch andere Störeinflüsse zu modellieren, wie z.B. Kanalstörungen und Sprachverzerrungen durch den Lombard-Effekt. Dementsprechend müssen vier Modelle miteinander kombiniert werden, um das gestörte Modell zu erzeugen [GL98]. Ein weiteres Verfahren, bei dem die Geräuschkompensation durch die Ein-beziehung der Störung in die Modellierung erreicht wird, ist die Verwendung von Multi-HMMs mit Multi-Transitions [PA97]. Bei den Multi-HMMs handelt es sich um parallele Modelle, die gleiche Wörter repräsentieren, aber unter anderen Umgebungen trainiert wurden, wie z.B. eine Menge von Sprachdaten, die einmal über das telefonische Festnetz, das Mobilfunknetz und einmal über eine Kombination von beiden aufgenommen

Sprach-HMM Geräusch-HMM

DCT-1 DCT-1

DCT

e(.) e(.)

log(.)

+

HMM gestörter Sprache

* g

Cepstral - Bereich

Log - Bereich

Spektral - Bereich

Page 34: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

34

wurde. Es werden dann drei verschiedene Mengen von HMMs mit je einem Korpus trainiert. Für den Erkennungsprozess werden sie dann durch das Zusammenführen ihrer Start- und Endzustände parallelgeschaltet. Mit den Multi-Transitions beschreibt man den Fall, bei dem mehrere Übergänge von einem Zustand zum anderen verwendet werden, um so die Anzahl der Wahrscheinlichkeitsdichten zu erhöhen. Eine Kombination von beiden Methoden führt bei m parallelen HMMs und n Übergängen je Zustand zur einer Anzahl von m x n möglichen Übergängen gegenüber nur einem Übergang im Originalmodell. So erhöht sich die Parameteranzahl des Systems erheblich, was eine größere Menge an Trainingsmaterial erfordert. Dies ist aber schon vom Ansatz des Verfahrens gegeben, da man dieselben Daten aus verschiedenen Kanälen bereithält, um das System robuster gegen Störgeräusche zu machen. Natürlich kann dieses Verfahren nur dann eingesetzt werden, wenn auch Trainingsdaten von allen abzudeckenden Bereichen vorhanden sind, was auch der Hauptnachteil dieses Verfahrens ist. Eine weitere Möglichkeit Geräuschkompensation mit Hilfe der akustischen Modelle durchzuführen, sind die Verfahren mit State-Dependent-Wiener-Filter und State-Integrated-Wiener-Filter [VM97] und [VG96]. Beim ersten Verfahren wird ein Wiener-Filter verwendet, um das gestörte Sprachsignal zu filtern. Die Parameter des Wiener-Filters werden aber nicht direkt vom gestörten Sprachsignal geschätzt, sondern nur das Leistungsspektrum des Störgeräusches während der Sprachpausen. Die Spektren für das Sprachsignal werden aus den HMM-Parametern entnommen. Die liegen jedoch nicht in spektraler, sondern in cepstraler Form vor. Daher muß, wie schon beim PMC-Verfahren beschrieben, eine Transformation durch eine inverse DCT und einer Exponential-Funktion vorgenommen werden. Für jedes HMM wird anfangs die wahrscheinlichste Zustandsfolge für das gestörte Sprachsignal durch den Erkenner geschätzt. Darauf aufbauend wird anschließend eine Reihe von Wiener-Filtern berechnet, mit denen das Signal dann gefiltert und zurück in den Erkenner gegeben wird, um die Wahrscheinlichkeit mit jedem Modell zu berechnen. Es wird somit eine Rangliste erzeugt und das Modell mit der größten Wahrscheinlichkeit ausgewählt. Eine wirkliche Filterung geschieht nur dann, wenn das am Anfang richtige HMM ausgewählt wurde, sonst geschieht keine nennenswerte Filterung des Sprachsignals.

Page 35: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

35

Dieses Verfahren liefert gute Ergebnisse, ist aber stark abhängig von der Effizienz des Erkenners bei der Klassifizierung des gestörten Sprachsignals am Anfang, die jedoch bei kleinen Signal-Rausch-Abständen stark abfällt. Abb. 2.6.2: Funktionsweise des State-Dependent-Wiener-Filters Diesen Nachteil hat das State-Integrated-Wiener-Filter nicht. Hier werden die Mittelwertvektoren ( )mcxµ durch die aus dem Modell und dem Signal

errechneten Parameter ( )( )mcNNXX PP + ersetzt. Dabei ist ( )( )mc

NNXX PP + das Cepstrum

der Summe der Spektren vom Sprachsignal und Störgeräusch. Somit wird das Störgeräusch adaptiv in die Wahrscheinlichkeitsdichtefunktionen der HMMs integriert. Das Ergebnis ist eine verbesserte Erkennungsrate. Bei dieser Gruppe von Verfahren, die in die akustische Modellierung eingreifen, sieht man, daß man durch die Integration der Störungen in die Modelle, eine robustere Spracherkennung gegenüber Störgeräuschen erhält. Nachteilig ist aber, daß man tief in die akustische Modellierung des Spracherkenners eingreifen muß, um die erforderlichen Anpassungen vorzunehmen, was für eine allgemein verwendbare Lösung unpraktikabel ist.

Gestörtes Sprachsignal y

State-based Wiener-Filter

Viterbi -Algorithmus

Wahrscheinlichste Zustandsfolge

Entstörtes Sprachsignal x

Modell – Score

( )xp ˆ|λ HMM λ

Page 36: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

36

2.7 Training mit gestörten Daten Eine Lösung, die direkt von der Problematik eines Spracherkenners abgeleitet wurde, der unterschiedlichen Umgebungen in der Anwendung und im Training ausgesetzt ist, ist das Trainieren mit Sprachdaten aus der typischen Anwendungsumgebung. Dies ist nicht immer möglich, weil solche Daten meist knapp und schwer zu erhalten sind und so höhere Kosten für die Realisierung eines solchen Spracherkenners verursachen. Aber auch da, wo solche Daten in zufriedenstellender Menge vorhanden sind, erreicht der Erkenner oft geringere Erkennungsraten, als ein mit ungestörten Daten trainiertes System. Dies hat den Hintergrund, daß mit den gestörten Sprachdaten nicht alle Fälle der in der Praxis auftretenden Störungen abgedeckt werden. Dies ist bei der Spracherkennung im Fahrzeug der Fall, da nicht alle möglichen Motorgeräusche bei allen Drehzahlen, oder die verschiedenen Wind- und Karosseriegeräusche für das Training aufgenommen werden können. Zwar kann man die Lage durch eine große und weite Störgeräuschbereiche abdeckende Trainingsmenge verbessern. Jedoch sind diesem Verfahren Grenzen gesetzt, so daß eine gewisse Schwelle bei der Erkennungsrate nicht überschritten wird. Der Vorteil dieser Methode ist aber, daß man keine zusätzlichen Geräusch-kompensationsverfahren anwenden muß. Die Geräuschunterdrückung ist sozusagen im Spracherkennungssystem implizit enthalten. In manchen Anwendungen, besonders in solchen, wo das Störgeräusch nicht so ausgeprägt ist, würde dieser Grad der Geräuschkompensation ausreichend sein. Im Fahrzeug aber ist der Störsignalpegel meistens zu hoch für den Einsatz dieses Verfahrens. Es gibt aber die Möglichkeit, diese Methode in Kombination mit einem anderen Geräuschkompensationsverfahren anzuwenden, was zu noch besseren Ergebnissen führt. Es kann beispielsweise eine Trainingsmenge vor dem Training zuerst mit einer Spektralen Subtraktion entstört werden. Bei dem Erkennungsprozess werden dann bei der Vorverarbeitung die Eingangssignale mit der gleichen Spektralen Subtraktion entstört. Es bleiben zwar noch Reststörungen im Sprachsignal, die aber nicht mehr solch einen großen Einfluß auf die Erkennungsrate haben, wie bei dem Training mit unentstörten Daten.

Page 37: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

37

Mit dem Training werden zudem die unvermeidlichen Reststörungen mit-trainiert, die nach der Spektralen Subtraktion übrigbleiben. So kann eine höhere Erkennungsrate erzielt werden gegenüber einem Spracherkennungssystem, das nur in einer Laborumgebung trainiert wurde.

2.8 Resume In diesem Kapitel wurden die gängigsten Verfahren zur Geräuschkompensation vorgestellt. Sie können in verschiedene Klassen unterteilt werden. Die erste bilden die einkanaligen Verfahren, wovon das einfachste die klassische Filterung ist. Sie kann aber nur dann vorgenommen werden, wenn die Spektren der Stör- und Nutzsignals sich nicht überlappen, was aber bei den im Fahrzeug auftretenden Störsignalen nicht der Fall ist. Weitere Verfahren sind die der adaptiven Filterung, wie es die Spektrale Subtraktion und das Wiener-Filter ist. Die Spektrale Subtraktion ist ein einfaches und bewährtes Verfahren, das aber eine gut funktionierende Sprach-Pausen-Detektion benötigt und bei niedrigem Signal-Rausch-Abstand Verzerrungen des Sprachsignals verursachen kann. Das gleiche gilt auch für das Wiener-Filter, das mit der Spektralen Subtraktion eine große Ähnlichkeit aufweist. Die Geräuschreduktion mit Referenzspektren gehört ebenfalls zu den einkanaligen Verfahren, erfordert aber ein genaues Wissen über die bei der Anwendung auftretenden Störgeräusche und ist deshalb für den Einsatz im Fahrzeug eher ungeeignet. Dies trifft auch teilweise auf die Methode mit der Adaption über die aktuellen Fahrzeugdaten zu. Zudem wäre dies mit einem erhöhten Hardwareaufwand verbunden, der möglicherweise nicht in allen Fahrzeugen realisiert werden könnte. Eine weitere Klasse bilden die zweikanaligen Verfahren. Bei diesen Verfahren muß außer dem etwas erhöhten Hardwareaufwand noch eine genaue Platzierung des Referenz-Mikrofons nahe der Störgeräuschquelle vorgenommen werden. Weiterhin sollte eine völlige Entkopplung des Eingangssignals (erster Kanal) und des Referenzsignals (zweiter Kanal) existieren, was aber in der Praxis im Fahrzeug nur schwer zu realisieren ist. Eine weitere Gruppe stellen die sogenannten mehrkanaligen Verfahren dar. Sie liefern die besten Ergebnisse bezüglich der Geräuschkompensation, sind aber mit

Page 38: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

38

einem erhöhten Hardwareaufwand verbunden, da mehrere Mikrofone installiert werden müssen. Die Verfahren mit adaptiven Post-Filtern sind leistungsfähiger, beinhalten aber einen zusätzlichen Aufwand, den man von den einkanaligen Verfahren wie z.B. dem Wiener-Filter her kennt. Wegen der Schwäche des Delay-and-Sum-Beamformers bei tiefen Frequenzen sind Beamformer mit superdirektiver Richtcharakteristik besser für den Einsatz im Fahrzeug geeignet, da sie diese Problematik beheben. Außerdem erfordern sie eine kleinere Anzahl von Mikrofonen. Eine andere Möglichkeit zur Geräuschkompensation besteht darin, die Stör-geräusche in die akustische Modellierung mit einzubeziehen. Es werden damit relativ gute Ergebnisse erzielt. Dennoch lassen sich Geräusche im Fahrzeug nicht so gut modellieren, da sie stark variabel sind. Bei den Multi-HMMs mit Multi-Transitions entsteht eine zusätzliche Anforderung an Rechenleistung durch die 3D-Viterbi-Dekodierung, die bei Systemen mit begrenzten Hardwareressourcen, wie sie auch im Fahrzeug verwendet werden, problematisch für den Echtzeit-betrieb sein kann. Diese Gruppe von Verfahren ist zudem noch umständlich zu realisieren und erfordert eine tiefgehende Anpassung jedes Systems, da seine akustische Modellierung modifiziert werden muß. Eine weitere Methode zur Geräuschreduktion ist das Training mit gestörten Daten. Zwar wird die Erkennungsrate dadurch erhöht, jedoch nur bis zu einem gewissen Grad, der oft für die praktische Anwendung im Fahrzeug nicht ausreichend ist. Die Anschaffung der Trainingsdaten ist relativ umständlich und ihre Menge oft unzureichend. Eine gute Lösung bietet die Kombination mit einem einkanaligen Verfahren, wie die Spektrale Subtraktion. So werden bessere Resultate erzielt als mit den beiden Verfahren einzeln. Als letzte Möglichkeit gäbe es noch die Auswahl robuster Merkmale, was teilweise schon durch die Verwendung von Cepstren erreicht wird. Dies ist aber ein eigenes Gebiet, in dem es verschiedene Ansätze gibt, wie man die geeignetsten und robusteren Merkmale gegenüber Störgeräuschen auswählt. Das erfordert auch eine Anpassung der Merkmalsberechnung jedes einzelnen Sprach-erkennungssystems. Deshalb wird auf solche Lösungsansätze im Rahmen dieser Arbeit nicht weiter eingegangen. Es sollten die Merkmale des jeweiligen Systems verwendet und die Störgeräuschkompensation vor der Merkmals-berechnung durchgeführt werden. Somit wurde in diesem Kapitel eine Übersicht der gängigsten Verfahren zur Geräuschkompensation von gestörten Sprachsignalen sowie ihre Vor- und Nachteile aufgezeigt.

Page 39: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

39

Kapitel 3 Angewendetes Verfahren In diesem Kapitel werden zunächst die Auswahl eines bestimmten Verfahrens zur Implementierung und die Gründe dafür etwas genauer betrachtet. Der zweite Teil befaßt sich schließlich mit den notwendigen Anpassungen, die aus einem allgemeineren, das speziell für diese Arbeit eingesetzte Verfahren bilden.

3.1 Auswahl des Verfahrens Bei der Auswahl des am besten für diese Arbeit geeigneten Verfahrens müssen verschiedene Faktoren und Anforderungen berücksichtigt werden. Zunächst einmal sollte die Lösung in möglichst vielen Spracherkennungssystemen einsetzbar sein. In erster Linie aber sollte sie sich nach dem Einsatz in einem Fahrzeug ausrichten, wie es im SLACC-Projekt der Fall ist. Vorteilhaft wäre eine modulare Lösung, die unabhängig vom jeweiligen Spracherkennungssystem arbeitet und eine definierte, allgemeine Schnittstelle verwendet. Somit wäre es am besten, ein Verfahren auszuwählen, das auf Signalebene arbeitet. Es müßten bei einem Einsatz im Fahrzeug die zur Verfügung stehenden Hardwareressourcen berücksichtigt werden, die in einem solchen Fall relativ begrenzt sind. Das Verfahren sollte möglichst gut erprobt, weit eingesetzt und seine Leistungsfähigkeit von mehreren Quellen bestätigt sein. Es sollten daher Verfahren, die nur im Forschungsstadium liegen, vermieden werden. Der Aufwand von der Hardwareseite aus sollte nicht zu groß sein, wie das bei den mehrkanaligen Verfahren der Fall ist. Man kann sicher nicht alle Arten von Stör-geräuschen mit einem einzigen Verfahren abdecken. Bei der Lösung sollte deshalb mehr Rücksicht auf die im Fahrzeug vorkommenden Störgeräusche genommen werden.

Page 40: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

40

Diese Anforderungen stellen die grundlegenden Kriterien für die Auswahl eines Verfahrens dar. Da die Lösung allgemein verwendbar und möglichst modular sein soll, scheiden die Verfahren mit einer akustischen Modellierung und der Verwendung von modifizierten Merkmalen aus. Das Training mit gestörten Daten ist schon vorher angewendet worden, bringt aber aufgrund der schon in Kapitel 2 erwähnten Nachteilen dieses Verfahrens keine zufriedenstellenden Ergebnisse für den praktischen Einsatz. Obwohl die mehrkanaligen Verfahren die beste Leistungsfähigkeit aufweisen, sind sie für diese Lösung hardwaremäßig zu aufwendig. Die zweikanaligen Verfahren haben auch den Nachteil des erhöhten Hardwareaufwands, aber nicht in so einer starken Form. Ein weiterer Nachteil ist die Entkopplung der beiden Signale, die sehr schwierig ist und für jedes einzelne System gesondert vorgenommen werden muß und so nicht allgemein behandelt werden kann. Die klassische Filterung wäre sicher das einfachste, aber die Störgeräusche, die im Fahrzeug vorkommen, überlappen sich frequenzmäßig mit dem Nutzsignal derart, daß dieses Verfahren nicht als mögliche Lösung betrachtet werden kann. Als letztes sind noch die einkanaligen Verfahren geblieben. Sie bieten in Wirklichkeit die beste Alternative für diese Arbeit. Die Verwendung von Referenzspektren ist hier allerdings nicht zu empfehlen, da man es mit stark variablen Störgeräuschen zu tun hat, die zu schwer vorhersehbar sind, um sie in Referenzspektren zu modellieren. Die beiden anderen Verfahren, das Wiener-Filter und die Spektrale Subtraktion, die zu den adaptiven Filtern gehören, bieten die beste Möglichkeit in dieser Arbeit eine Geräuschkompensation durchzuführen. Sie arbeiten sehr ähnlich, wie schon in Kapitel 2 zu sehen ist. Da aber die Spektrale Subtraktion für die Geräuschreduktion von Sprachsignalen stärker eingesetzt wird und so mehr Erfahrung und Anpassungsvorschläge vorliegen, wird letztendlich dieses Verfahren verwendet. Von diesem Verfahren wird erwartet, daß es einen Großteil der Störgeräusche im Fahrzeug kompensiert. Eine Kompensation komplexer Störgeräusche, wie z.B. impulshafte Störungen, ist von diesem Ansatz nicht zu erwarten. Dafür wird gewöhnlich eine aufwendigere akustische Modellierung durch HMMs vorgenommen [VM97]. Es können weiterhin auch keine anderen störenden Nebeneffekte, die während des Einsatzes eines Spracherkenners im Fahrzeug auftreten, wie z.B. der Lombard-Effekt, erfaßt werden.

Page 41: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

41

Ein weiterer Fall, der je nach Umständen, auch nicht gut abgedeckt werden kann, ist das Reden von anderen Menschen im Hintergrund, allgemein bekannt als Coktail-Party-Effekt, was aber nicht die Regel bei den Störungen in der Anwendung ausmacht. Über solche Problemfälle sollte man sich schon vorher im klaren sein, weil es kein Verfahren gibt, das alle möglichen Störgeräuscharten gut kompensieren kann. Außerdem wird, wie schon in Kapitel 2 erwähnt, die Störung nicht komplett entfernt, sondern nur zu einem gewissen Grad reduziert. Eine Reststörung ist also immer noch vorhanden, was sich aber nicht vermeiden läßt. Als nächstes werden die notwendigen Anpassungen vor der Realisierung des ausgewählten Verfahrens näher betrachtet.

3.2 Anpassungen Die Spektrale Subtraktion findet im Spektralbereich statt, wobei das entstörte Amplitudenspektrum aus einer Subtraktion des geschätzten Störgeräusch-spektrums vom gestörtem Sprachsignal gewonnen und von der folgenden Formel beschrieben wird [VM97]:

( ) ( ) ( )( ) ( ) bbbfNfSNRfYfX ⋅−= α

Bei ( ) bfX und ( ) b

fY handelt es sich um die aktuellen Frame-Spektren,

wobei das erste (entstörtes Spektrum), das zweite (gestörtes Spektrum) ersetzen

wird. Das Störgeräuschspektrum ( ) bfN wird während der Perioden, in denen

kein Sprachsignal vorhanden ist, erfaßt. Es ist daher seit der letzten Sprachpause zwischengespeichert. Erst bei der nächsten Pause wird es durch ein neu berechnetes ersetzt. Dieses Störsignalspektrum ist eine Mittelung über alle Frames der Sprachpause. Um die Pausen zu erkennen, muß eine Sprach-Pausen-Detektion vorgeschaltet werden, die alle Frames als Sprache oder Pause klassifiziert. Die Subtraktion erfolgt nach einer Gewichtung des Störsignalspektrums mit dem Faktor α , der als Subtraktions-Koeffizient bezeichnet wird und vom Signal-

Page 42: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

42

Rausch-Abstand umgekehrt proportional abhängig ist. Die Sprachpausen werden deshalb stärker störreduziert als Passagen, wo ein hoher Signalpegel herrscht. Nach [FM00] sollte dieser Faktor maximal 2.2 bei einem Signal-Rausch-Abstand von 0 dB betragen und bei einem Signal-Rausch-Abstand ab 40 dB gegen 0 gehen, so daß keine Subtraktion stattfindet. Dazwischen sind die übrigen Werte linear angeordnet. Es kann aber vorkommen, daß durch die Subtraktion, wenn die Störgeräuschschätzung, wegen eines zu kleinen Signal-Rausch-Abstandes zu groß ist negative Werte entstehen. Um dies zu vermeiden, führt man folgende Begrenzung ein [VM97]:

( )( ) ( ) ( )

( )

>

=sonstfY

fYfXfXfX

b

bbb

b

,

ˆ,ˆˆ

β

β

Der Faktor β bestimmt die Untergrenze, ab der ein Signal reduziert wird und heißt Flooring-Koeffizient. Er wird empirisch auf 0.2 gesetzt [FM00]. Wenn

nach der Subtraktion der Schwellwert ( ) bfYβ unterschritten wird, so

verwendet man nicht den subtrahierten Wert, sondern den Schwellwert selber als Ergebnis. In [HP98] wird dieser Parameter sogar frequenzabhängig verwendet. So ist er bei niedrigeren Frequenzen größer und nimmt mit steigender Frequenz linear, aber stufenweise pro Frequenzband ab. Er nimmt dann Werte von 0.05 bis 0.1 an. Nach [HP99] sollte der Wert während der Sprachsegmente erhöht ( > 0.2) und in den Pausen reduziert ( < 0.2 ) werden. Um den Signal-Rausch-Abstand, der für den Parameter α notwendig ist, zu berechnen, muß die Gesamt-Energie der Pausen-Frames gemittelt und die des aktuellen Frame erfaßt werden. So wird dieser Signal-Rausch-Abstand-Wert für alle Frequenzbänder des Spektrums bei der Subtraktion verwendet. Eine andere Verfahrensweise, die in [FM00] beschrieben wird, ist das separate Berechnen des Signal-Rausch-Abstandes für die einzelnen Teilbänder des Spektrums. Dies wird als Sub-Band-Spectral-Subtraction oder Nichtlineare Spektrale Subtraktion bezeichnet. Dazu muß vorher eine Filterung des Signals mit einer Mel-Filterbank vorgenommen werden. So wird dann für die Berechnung des Signal-Rausch-Abstandes für jedes Frequenzband die Energie des dazugehörigen Kanals der Mel-Filterbank verwendet. Wenn bei der Berechnung negative Werte für den Signal-Rausch-Abstand entstehen, sollte man sie auf 0 dB setzen, da sie sonst ein

Page 43: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

43

Vorzeichenwechsel von α verursachen. Diese Verfahrensweise ist nicht problematisch, weil α seinen Maximalwert bei 0 dB erreicht und dann bei negativem Signal-Rausch-Abstand immer konstant bleibt. Durch die Methode der Sub-Band-Spectral-Subtraction wird eine noch höhere Erkennungsrate als bei der normalen Spektralen Subtraktion erreicht. Eine weitere Verbesserung, um diesmal große Sprünge der Frequenzen in der Zeitachse bei aufeinanderfolgenden Frames zu vermeiden, ist die Glättung der Spektren gemäß folgender Formel:

( ) ( ) ( ) ( )lfXlfXlfX ,ˆ1,ˆ1,ˆ ρρ +−−= Wobei l der Frame-Index und ρ der Glättungsfaktor ist, der empirisch ermittelt wurde und bei [FM00] 0.97 beträgt. Ein wesentlicher Nachteil bei der Spektralen Subtraktion, sowie beim Wiener-Filter, ist die Erzeugung von Reststörungen nach der Subtraktion, die sogenannten Musical Tones. Sie entstehen besonders bei niedrigem Signal-Rausch-Abstand und wenn das Störgeräuschspektrum überschätzt wird. Dies wird aber von der Begrenzung, die weiter oben beschrieben wurde, abgefangen. Hauptursache aber ist, daß das in der Pause geschätzte Störgeräuschspektrum während des nächsten Sprachabschnitts nicht konstant bleibt, sondern sich mehr oder weniger ändert. Je größer die Änderung des Störgeräusches zwischen den Pausen, desto stärker der Musical-Tones-Effekt, da die Adaption nicht immer schnell genug erfolgen kann, besonders wenn das Störsignal stark instationär ist. Dies sollte bei der Sprach-Pause-Detektion berücksichtigt werden, damit möglichst viele Sprachpausen erkannt werden. Die Sprach-Pause-Detektion (VAD, Voice Activity Detection) kann energie-basiert sein, wie in den meisten Fällen [PSU]. Es gibt auch andere Signaleigenschaften, die dafür verwendet werden können, wie z.B. die Nulldurchgangsrate oder LPC-basierte Merkmale, die mit Formanteigenschaften verbunden sind. Wenn aber alle Merkmale verwendet werden, um eine Klassifikation in Sprache oder Pause durchzuführen, entstehen zu viele freie Parameter für diese binäre Entscheidung. Bei dem Energie-basierten Ansatz wird angenommen, daß die Pausen-Frames eine niedrigere Energie besitzen als die Sprach-Frames. Mit Hilfe eines Histogramms kann eine statistische Verteilung

Page 44: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

44

der zuletzt beobachteten Energiewerte erfaßt werden und anhand dessen eine Klassifikation in Sprache oder Pause des aktuellen Frame vorgenommen werden. Vorteilhaft wäre eine weiche Entscheidung gegenüber einer harten, weil sie besser anpaßbar an das jeweilige Umfeld ist. Ein Verfahren, das ohne VAD auskommt, wird in [PSK] beschrieben und als Extended Spectral Subtraction bezeichnet. Dabei wird eine Kombination aus einem Wiener-Filter und einer Spektralen Subtraktion mit einigen Rückkopplungen verwendet. Dies scheint sehr vorteilhaft zu sein, da man auf eine gesonderte VAD verzichten kann. Seine Implementierung ist aber aufwendiger und als Verfahren allein in [PSK] beschrieben. Eine weitere Möglichkeit der Sprach-Pausen-Detektion bietet nach [DS96] die Verwendung von Cepstralwerten anstatt der Energie. Diese Option wird aber nur dann verfolgt, wenn eine energiebasierte VAD mangelhafte Resultate liefern würde.

Um die Störgeräusch-Varianz zu glätten, kann anstatt ( ) bfY , eine Mittelung

( ) bfY des gestörten Signals über einige Frames gemacht und in die Subtrak-

tionsformel eingesetzt werden. Dies sollte sich aber nicht über zu viele Frames erstrecken, weil die Instationarität der Signale zur Verschlechterung des Ergebnisses führen kann. Alternativ kann auch eine Tiefpaß-Filterung der Frames durchgeführt werden, die mit folgender Formel beschrieben wird [VG96]:

( ) ( ) ( ) ( ) bbbtfYtfYtfY ,11,, ρρ −+−=

Der Glättungsparameter ρ wird auch Zeitkonstante des Tiefpaß-Filters erster Ordnung genannt und beschreibt seine Bandbreite. Er umfaßt typisch einen Wertebereich von 0.7 bis 0.95.

Page 45: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

45

Eine weitere Methode für die Entstörung des Nutzsignals, mit der Musical-Tones nicht so stark erzeugt werden, ist durch folgende Formel beschrieben [PSU]:

( )( ) ( ) ( ) ( )

( ) ( )

<−=

sonstfNfY

fNfYfNfYfX

bb

bbbb

b

,

,

So werden negative Werte vermieden, aber anders als bei der weiter oben beschriebenen Begrenzungsmethode. Ein weiterer Vorschlag in [PSU] ist, daß man die Mittelwerte der Störgeräusch-spektren aufeinanderfolgender Pausen glätten sollte, nach folgender Formel:

( ) ( ) ( ) ( )aktuell

b

alt

b

neu

bfNfNfN ρρ +−= 1

Der Glättungsfaktor ρ sollte nahe 1 liegen. So werden bei sehr kleinen Pausen, durch welche die Charakteristik des Störgeräusches nicht hinreichend beschrieben werden kann, nur teilweise in Betracht gezogen und teilweise die vorherige Pause mitberechnet. So können auch starke Sprünge zwischen den Spektralwerten beider Pausen vermieden werden. Vor der Verarbeitung der einzelnen Frames sollte man beachten, daß die Fensterung mit einem Rechteckfenster zu ursprünglich nicht vorhandenen Frequenzanteilen im Frame-Spektrum führen kann. Deswegen sollte eine Fensterfunktion mit flach abfallenden Flanken, wie z.B. das Hamming-Fenster, verwendet werden. Um bei einer Rücktransformation in den Zeitbereich eine zu starke Dämpfung zu vermeiden, sollte man eine Überlappung der Frames vorsehen. So können auch Diskontinuitäten an den Frame-Grenzen vermieden werden. Programmiertechnisch sollte dies alles optimiert werden, damit das System auf der Zielplattform effizient lauffähig ist. Da das Trainingsmaterial nur in gestörter Form vorliegt (SLACC-Daten), würde der Einsatz eines damit trainierten Spracherkennungssystems in Kombination mit der Spektralen Subtraktion nur mäßige Ergebnisse liefern. Es ist daher vorteilhafter, wenn die ganze Trainingsmenge mittels Spektraler Subtraktion

Page 46: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

46

entstört und das Spracherkennungssystem damit trainiert wird. Es werden so die Störungen mittrainiert, was die Robustheit des Spracherkennungssystems erhöht. Für den Erkennungsprozess werden die Eingangssignale weiterhin mit der gleichen Spektralen Subtraktion entstört. So ist das angewendete Verfahren eine Kombination aus Spektraler Subtraktion und dem Training mit gestörten Daten. In diesem Kapitel wurde somit die Auswahl des für diese Arbeit am besten geeigneten Verfahrens beschrieben sowie die Anforderungen für eine zufrieden-stellend funktionierende Anwendung.

Page 47: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

47

Kapitel 4 Implementation Bis jetzt wurden die verschiedenen Arten von Geräuschkompensationsverfahren und ihre theoretischen Grundlagen behandelt, sowie eine Auswahl der am besten für diese Anwendung geeigneten Methode getroffen. Es reicht aber nicht nur die theoretische Grundlage als Implementationsbasis zu nehmen, sondern es müssen auch verschiedene Anpassungen des Verfahrens vorgenommen werden, die teilweise der praktischen Erfahrung entstammen. Dieses Kapitel beschäftigt sich nun mit der Realisierung des ausgewählten Verfahrens in der Praxis.

4.1 Entwicklungsumgebung Die Entwicklung der Störgeräuschkompensation mittels Spektraler Subtraktion wurde im Rahmen der Entwicklungsumgebung für Spracherkennungssysteme ESMERALDA (Environment for Statistical Model Estimation and Recognition on Arbitary Linear Data Arrays) [FK99] durchgeführt. Als Programmiersprache wurde C verwendet, welche auch in allen Teilen dieser Entwicklungsumgebung eingesetzt wird. Mit ESMERALDA lassen sich HMM-basierte Sprach-erkennungssysteme mit mehreren frei konfigurierbaren statistischen Parametern, wie Zuständen, Zustandsübergängen, Codebüchern und Sprachmodellen er-stellen. Der modulare Aufbau von ESMERALDA gestattet es, immer nur die relevanten Teile des Spracherkennungssystems anzupassen. Die wichtigsten Teile sind, angeordnet von niedrigster zu höchster Ebene, die Merkmalsberechnung, Vektorquantisierung, akustische Modelle, Sprachmodelle und grammatische Modelle.

Page 48: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

48

Das gewählte Verfahren für die Geräuschkompensation setzt im Merkmals-berechnungsmodul an. Dabei kann es darin integriert werden oder als externes Programm implementiert werden, welches das Signal vor dem Merkmals- berechnungsmodul verarbeitet. Die Integration in das Merkmalsberechnungs-modul erscheint sinnvoller, da weniger Programme gestartet werden müssen und einige Berechnungsschritte nicht redundant durchgeführt werden, wie z.B. FFT-Transformation und -Rücktransformation, was auch u.U. Qualitätseinbußen für das Signal bedeuten könnte und unnötig Rechenzeit verbrauchen würde. Als Eingabe dienen dem Merkmalsberechnungsmodul Signaldateien im PCM-Format (16 kHz Abtastfrequenz, 16 Bit Abtastwerte, signed short), welche nur die Abtastwerte des Signals enthalten und keinen speziellen Header benötigen. Als Ausgabe erhält man dann Dateien, welche die errechneten Merkmale enthalten. In dieser Anwendung werden MFCC-Merkmale verwendet, die gehörrichtig verzerrte Cepstren enthalten und in verschiedenen Versionen vorliegen. Abb. 4.1.1: Aufteilung des 39-Dimensionalen MFCC-Merkmalsvektors

1. Ableitung 2. Ableitung

12 Cepstralwerte

Energie

Page 49: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

49

Die Basisversion, die auch Anfangs verwendet wurde, erzeugt Merkmale, die in Form von 39-Dimensionalen Merkmalsvektoren zusammengefaßt sind. Wie in Bild 4.1.1 zu sehen ist, sind die ersten 13 Elemente die Merkmale des aktuellen Frames und die weiteren zwei 13-elementigen Blöcke die Ableitung 1. bzw. 2. Ordnung der Merkmale des aktuellen Frames. Die 13 Merkmale sind noch weiter unterteilt. Das erste Element enthält die Energie des Frames und die übrigen 12 Elemente sind die zugehörigen Cepstralwerte. Diese Merkmale werden dann für die nächsten Stufen des Erkennungsprozesses bei dem Training und der Evaluation verwendet, was in Kapitel 5 näher erläutert wird.

4.2 Merkmalsberechnungsmodul Der Geräuschkompensations-Algorithmus ist als eine eigene Routine imple-mentiert, die aus dem Merkmalsberechnungsmodul aufgerufen wird. Im Merkmalsberechnungsmodul wird das Einlesen des Eingangssignals durch-geführt, sowie das Schreiben der Merkmale in die Ausgabe. In der Anwendung in einem Fahrzeug wären die Ein- und Ausgabe Datenströme. Für die Evaluation in der Entwicklungsumgebung liegen die Eingangssignale in Form von Dateien vor und die Ausgabe erfolgt ebenfalls in entsprechende Dateien. Deshalb bezieht sich im Weiteren die Ein- und Ausgabe auf Dateien, obwohl dies nicht der Standardfall für die Anwendung des Geräuschkompensationsalgorithmus ist. Das Einlesen bzw. Ausgeben geschieht frame-weise, genau wie die Verarbeitung der Geräuschkompensationsroutine auch, wie in Bild 4.2.1 zu sehen ist. Die Frames sind 256 Samples lang, was zeitlich 16 ms entspricht, und werden mit einer Überlappung von 96 Samples eingelesen und verarbeitet, damit Störeffekte an den Frame-Grenzen vermieden werden und bei der später angewendeten Hamming-Fensterung das Signal nicht zu stark gedämpft wird. Aus der Geräuschkompensationsroutine werden dann die Merkmalsvektoren ausgegeben, die 39 Float-Werte von je 4 Byte Größe enthalten. Somit umfassen die Merkmalsdateien ungefähr die halbe Größe der ursprünglichen Signaldateien. In der Standardversion werden die Merkmale innerhalb des Merkmals-

Page 50: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

50

berechnungsmoduls, berechnet. Da aber hier die Merkmalsberechnung selber implementiert wurde, ist sie in die Geräuschkompensationsroutine integriert worden. Abb. 4.2.1: Allgemeiner Ablauf und Dateiverarbeitung des Merkmals-

berechnungsmoduls Innerhalb des Merkmalsberechnungsmoduls werden noch einige Initi-alisierungen und Einrichtungen vorgenommen, wie z.B. der Mel-Filterbank, der MFCC-Merkmalstypen, der VAD und der Geräuschkompensationsroutine.

Signal-Datei Merkmals-Datei

Geräuschkompensations – Routine

Signal-Frame Merkmals-Frame

...

Page 51: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

51

4.3 Geräuschkompensationsroutine Die Geräuschkompensationsroutine wird als Funktion vom Merkmalsbere-chnungsmodul aufgerufen und ihr allgemeiner Ablauf ist in Bild 4.3.1 dargestellt. Ihre Funktionalität wird im folgenden durch die Analyse ihrer einzelnen Komponenten beschrieben, was auch wegen ihres modularen Aufbaus sinnvoll ist.

4.3.1 Sprach-Pause-Detektion Die Sprach/Pause-Detektion (VAD) ist ein wesentlicher Bestandteil der Geräuschkompensationsroutine, da sie den weiteren Verlauf des Programms steuert und für die Adaption des Filters an aktuelle Pausen notwendig ist. Um die Geräuschkompensation auf einer optimalen Sprach-Pause-Klassifikation zu testen, wurde das Testsignal zunächst manuell in Pausen segmentiert. So konnte die Effizienz des Geräuschkompensationsalgorithmus ohne die Einflüsse der VAD getestet werden. Es wurde so zuerst der Algorithmus optimiert und dann die VAD hinzugenommen, weil sie einen entscheidenden Faktor bei der Qualität der Ergebnisse darstellt. Für die automatische Verarbeitung der gesamten Testmenge wurde eine vom Spracherkenner automatisch erzeugte Segmentierungsdatei, welche die erkannten Wörter der Äußerung und deren Grenzen in Frames angibt, verwendet. Darin sind auch die Pausen und ihre Grenzen enthalten. Aus dieser Datei wurde dann die Segmentierungsinformation extrahiert. Diese Übergangslösungen wurden nur am Anfang verwendet und dienten dazu, den Algorithmus ohne Einwirkung anderer Parameter zu optimieren. Für den praktischen Einsatz ist aber eine automatische Sprach-Pausen-Detektion unentbehrlich. Deshalb wurde eine VAD-Routine implementiert, die im folgenden beschrieben ist.

Page 52: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

52

Abb. 4.3.1: Allgemeiner Ablauf der Geräuschkompensations-Routine

Frame

VAD

Spektrale Subtraktion

Merkmalsberechnung

Frame in Puffer

speichern

Merkmals- Vektor

Pause

Sprache

Write = 0

Write = 1

Zurück zum Merkmalsberechnungsmodul

Page 53: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

53

Innerhalb der Geräuschkompensationsroutine wird das aktuelle Signal-Frame unverändert der VAD-Routine übergeben, die einen Wert zwischen 0.0 und 1.0 zurückgibt, der die Wahrscheinlichkeit angibt, einen Sprach-Frame detektiert zu haben. In Bild 4.3.1.1 ist der gesamte Ablauf der VAD-Routine schematisch dargestellt. Je näher der Wert zu 0 ist, desto wahrscheinlicher ist es, daß es sich um ein Pausen-Frame handelt. Im umgekehrten Fall liegt mit höherer Wahr-scheinlichkeit ein Sprach-Frame vor. Nun kann man nicht einfach den Wert 0.5 als Schwelle für Sprache und Pause nehmen, da es zum Teil von den zu verarbeitenden Signaldaten abhängig ist. Abb. 4.3.1.1: Ablauf der VAD-Routine und Berechnung der Parameter

Sprache Pause Keine Entscheidung

Frame

VAD

Sprach –anfang erreicht ?

V > P P > 15

P++

V++ In Puffer U speichern

Von Puffer Unach Puffer F speichern

Von Puffer Unach Puffer F speichern

Parameter für Sp. Sub. berechnen

Pause

Sprache

Nein

Ja

Ja

Nein Ja

Nein

Page 54: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

54

Intern arbeitet die VAD-Routine mit einem Histogramm, das die Verteilung der logarithmierten Energiewerte der gelesenen Frames enthält. Wie in Bild 4.3.1.2 zu sehen ist, wird der Energiewertebereich in Unterbereiche aufgeteilt, denen dann die aktuellen Frame-Energien zugeteilt werden. Wird ein Frame so einem Unterbereich zugeordnet, erhöht sich der Zähler dieses Bereichs und somit der Balken im Histogramm. Somit werden die absoluten Häufigkeiten der Energien repräsentiert. Die Anzahl dieser Unterbereiche wurde auf 32 gesetzt. Es wird parallel dazu ein Zähler mitgeführt, der die Anzahl der verarbeiteten Frames enthält. Durch eine Division der absoluten Häufigkeiten durch diese Anzahl, erhält man so die relativen Häufigkeiten.

Abb. 4.3.1.2: Energiehistogramm zur Klassifikation von Sprache/Pause Es findet auch eine Begrenzung des betrachteten Energiewertebereichs statt. Als Obergrenze werden die 95 % der Summe aller Energien gesetzt und als Unter-grenze die 5 %. So wird der Einfluß von Ausreißern minimiert. Für den Rückgabewert der Funktion wird eine neue Achse angelegt, die bei der vorher gesetzten Obergrenze der Energien den Wert 1.0 und bei der Untergrenze den Wert 0.0 hat.

95 % 5 % Energie

Counts 1.0 0

VAD – Wert

Page 55: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

55

Eine gewisse Problematik entsteht aber, wenn man sich am Anfang der Signal-datei befindet. Bis dahin sind nur wenige Frames gelesen worden und es kann so keine aussagekräftige Verteilung gebildet werden. Dies führt zu starken Schwankungen des Rückgabewertes und einer Tendenz zu hohen Werten. Es wurde ermittelt, daß es etwa 100 Frames dauert, bis eine stabile Schätzung erreicht werden kann. Bis dahin sollte man den Schwellwert für die Sprach-Pause-Entscheidung deutlich höher setzen, um Pausen am Anfang der Datei erkennen zu können. Das ist aber für Sprachsegmente, die in diesem Bereich vorkommen, problematisch, da sie womöglich auch als Pause eingeordnet würden. Dieses Problem würde im Realfall bei der Anwendung im Fahrzeug nicht eintreten, da der Einschwingvorgang schon kurz nach der Aktivierung des Gerätes vollendet wäre. Bei der Evaluation, wo die Daten in Form von Dateien vorliegen, würde sich dieser Vorgang bei jedem Einlesen einer neuen Datei wiederholen. Da die Trainings- bzw. Testmenge der Daten in vielen kurzen und nur sekundenlangen Dateien vorliegt, übt dieses Phänomen einen entscheidenden Einfluß auf das Ergebnis der Evaluation aus. Um dieses Problem zu beheben, wurde eine Weiterleitung der relevanten VAD-Parameter über eine Datei vorgenommen. Diese Parameter sind erstens die 32 Werte der Histogramm-Balken und zweitens die Anzahl der verarbeiteten Frames, die diese Verteilung gebildet haben. Um bei der großen Trainingsmenge nicht zu hohe Werte für die Histogramm-Balken und den Frame-Zähler zu erhalten, was zu einem festen Mittelwert führen kann, wird auch ein Dateizähler mitgeführt. Sobald 5 Dateien verarbeitet wurden, werden alle VAD-Parameter durch 10 dividiert und weiterverwendet, was einer Begrenzung des Histogramms entspricht. Diese Werte wurden empirisch ermittelt und führen dazu, eine Restverteilung zu erhalten, die ungefähr der Energieverteilung einer einzelnen Datei entspricht. Andernfalls hätte man eine Verteilung, welche die Energie aller bis dahin verarbeiteten Dateien charakterisiert. Somit würden die Energiewerte der aktuellen Datei nur sehr geringen Einfluß auf die Gesamtverteilung ausüben, der noch kleiner wird, je weiter die Verarbeitung der Eingangssignale voranschreitet. Mit dieser Rücksetzung der Verteilung kann sich das Histogramm auf veränderte Pegel- und SNR-Verhältnisse in den Dateien adaptieren und dennoch die Einschwingvorgänge am Anfang der Dateien vermeiden. Die Schwelle für die Sprache/Pause-Entscheidung des Rückgabewertes der VAD-Routine wurde empirisch ermittelt durch Betrachtung von mehreren Dateistichproben aus der gesamten Trainingsmenge des SLACC-Korpus. So

Page 56: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

56

wurden Dateien mit niedrigem und hohem Störgeräuschpegel betrachtet. Der Schwellwert liegt bei 0.4 bis 0.45, wobei der höhere Wert in einigen Fällen schon bei den ersten Frames eines Sprachsegments vorkommt. Es wurde aber der Wert 0.45 ausgewählt, um möglichst viele Pausen zu erkennen. Die Problematik, daß evtl. einige Sprach-Frames mit in die Geräuschschätzung während der Pausen einbezogen werden, wurde so umgangen, daß man definitiv die letzten Frames jeder Pause, bei der Schätzung des Störgeräusches nicht berücksichtigt. Die Anzahl dieser nicht berücksichtigten Frames wurde auf 3 festgelegt und ist im allgemeinen völlig ausreichend. Dieses Problem tritt aber auch am Anfang der Pause und dort sogar in stärkerer Form auf. Da das Ende einer Äußerung durch eine relativ niedrigen Energie charakterisiert ist, kann dieser Teil des Sprachsegments von der VAD-Routine leicht der Pause zugeordnet werden. Das ist verstärkt bei Frikativen zu beobachten, die manchmal je nach Signal-Rausch-Abstand auch in dem Rauschen untergehen können. In den meisten Fällen sind sie aber deutlich zu hören. Damit diese Frikative nicht in die Störgeräuschschätzung aufgenommen werden, wird der Pausenanfang zu einer Länge von 4 Frames nicht betrachtet. Insgesamt gesehen wird also eine beträchtliche Anzahl an Frames pro Pause (7 Frames) zur Sicherheit nicht in die Schätzung einbezogen. Dies wirkt sich aber nicht so störend aus, da Pausen erst ab einer Länge von 15 Frames betrachtet werden. Kleinere Pausen zu betrachten wäre zu risikoreich, da oft zwischen Wortübergängen eine solche Zeitspanne vorkommt, wo das Sprachsignal nicht völlig abwesend ist, sondern das Abklingen des einen Wortes in den Anfang des nächsten übergeht. Um solche kritischen Stellen zu umgehen, wird diese empirisch ermittelte Mindestlänge für die Pausen angenommen. Nebenbei sind so genügend Frames vorhanden, um trotz der oben erwähnten Sicherheits-beschränkungen eine gute Schätzung des Störgeräusches zu erhalten. Eine Pause besteht in der Praxis nicht nur aus Frames mit einem VAD-Wert von unter 0.45, da vereinzelte Frames mit höherer Energie vorkommen können, die normalerweise als Sprache klassifiziert würden. Um gegen solche Abweichungen robust zu sein, wird ein Sprachsegment nur dann als solches angenommen, wenn eine bestimmte Anzahl an Sprach-Frames ( > 0.45) hintereinander und ohne Unterbrechung durch Pausen-Frames vorkommen. Erst dann gilt eine Pause als abgeschlossen und die nächsten Frames werden als Teil des Sprachsegments betrachtet und verarbeitet. Diese Anzahl an aufeinander-folgenden Sprach-Frames wurde auf 5 gesetzt, was in den meisten Fällen mit hoher Wahrscheinlichkeit einen Sprachsegmentanfang charakterisiert.

Page 57: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

57

Das gleiche gilt auch für die Sprach-Frames. In dem Sprachabschnitt kommen immer auch Frames vor, die einen VAD-Wert kleiner als 0.45 haben. An Wortübergängen existieren sogar ganze Gruppen solcher Frames. Solche Stellen sollen nicht als Pause klassifiziert werden, damit keine Geräuschkompensations-parameter daraus geschätzt werden. Da solche Fälle innerhalb von Sprach-segmenten und Pausen sehr oft vorkommen und an Größe und Häufigkeit der Abwechslungen sehr unterschiedlich sind, ist es sehr schwer, dieses Problem deklarativ zu lösen. Es wurde deshalb eine statistische Lösung angewendet. Abb. 4.3.1.3: Unklassifizierter Abschnitt (Pause) im Puffer Der einzige sichere Bereich, ist der schon erwähnte Sprachsegmentanfang von 5 aufeinanderfolgenden Sprach-Frames. Bis zum Auffinden eines solchen Abschnitts werden alle eingelesenen Sprach-Frames in einem Puffer zwischengespeichert und Zählvariablen für Sprach- oder Pausen-Frames erhöht. Dies ist der Puffer mit der Bezeichnung U in Bild 4.3.1.1 der nur die Samples der gespeicherten Frames enthält. Danach wird eine Variable, die das Schreiben der Frames in die Ausgabedatei steuert, auf 0 gesetzt und ins Merkmals-berechnungsmodul ohne weitere Aktionen zurückgegangen. Dort werden keine

Unbekannter Abschnitt

Sprache

Pause

t

Sprachsegment – Anfang

Page 58: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

58

dieser Frames in die Ausgabedatei geschrieben, sondern es wird mit dem normalen Ablauf fortgefahren und das nächste Frame aus der Eingabedatei gelesen und verarbeitet. Erst nach einer Klassifikation des Abschnitts, der sich im Puffer befindet, und den nötigen Verarbeitungsschritten wird diese Variable auf 1 gesetzt. So können diese Frames nach der Rückkehr zum Merkmals-berechnungsmodul in die Ausgabedatei geschrieben werden. Nachdem nun ein solcher Abschnitt mit 5 aufeinanderfolgenden Sprach-Frames gefunden wurde, wird die Anzahl der Pausen-Frames im Puffer mit der Anzahl der Sprach-Frames darin verglichen. In Bild 4.3.1.3 ist solch ein unbekannter Signalabschnitt, der sich im Puffer befindet, dargestellt. Ist die Anzahl der Pausen-Frames größer, so wird der gesamte Abschnitt im Puffer als Pause klassifiziert und daraus die Geräuschkompensationsparameter berechnet. Andernfalls wird dies als Teil des schon begonnenen Sprachabschnitts angesehen und es werden für die Spektrale Subtraktion die von der letzten Pause geschätzten Parameter ohne Aktualisierung verwendet. Die Speicherung der Frames mit unbekannter Zuordnung in den Puffer beginnt wieder in dem Moment, wo ein Pausen-Frame detektiert wurde. Der darauf folgende Ablauf ist dann der schon beschriebene. Mit dieser statistischen Methode werden die Pausen relativ gut erkannt, im Gegensatz zu den anfangs angewendeten deklarativen Methoden, bei denen es immer Fälle gab, wo die Regeln nicht funktionieren und geändert werden mußten, was wiederum in anderen Fällen zu Problemen führte. Dieser Vorgang der VAD wird am Anfang der Geräuschkompensationsroutine durchgeführt, womit die Entscheidungskriterien für den weiteren Ablauf der Verarbeitung der Frames festgelegt werden. Es kann vorkommen, daß am Ende der Signaldatei sich noch Frames im Puffer befinden und kein weiteres Sprachsegment folgt. So etwas kommt relativ oft vor, da die meisten Signaldateien am Ende eine kurze Pause besitzen. Ohne weitere Maßnahmen würden diese Frames in der Ausgabe überhaupt nicht vorkommen. Deshalb wird nach dem Abschließen der Verarbeitung der Eingabedatei die Geräuschkompensationsroutine nochmals aufgerufen und dann anhand der Mehrzahl der enthaltenen Frames entschieden, ob neue Parameter für die Spektrale Subtraktion berechnet oder die alten verwendet werden. Danach werden alle Frames entstört und deren Merkmale berechnet. So sind diese Frames auch in der Ausgabe enthalten.

Page 59: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

59

4.3.2 Berechnung der Parameter Nach der Pausendetektion finden die notwendigen Transformationen und Berechnungen der Parameter jedes Frames statt. Sobald der Puffer als Teil eines Sprachsegments klassifiziert ist, werden alle Frames durch eine Parameter-berechnungs-Routine in den Spektralbereich transformiert und weitere Parameter berechnet. Für die Speicherung jedes Frames und seiner Parameter wird eine Struktur verwendet und ein weiterer Puffer realisiert, der solche Strukturen enthält. Dies ist der Puffer F in Bild 4.3.1.1, der dann alle im Puffer U enthaltenen Frames aufnimmt, einschließlich ihrer danach berechneten Parameter. Diese Parameter sind in Bild 4.3.2.1 zu sehen. Der Parameter Frame enthält die Samples des Frames und dient zu einer späteren Rücktransformation in den Zeitbereich. Der nächste Parameter Magnitude nimmt die Werte des Amplituden-Spektrums nach der FFT-Transformation auf. Der Parameter Phase nimmt nach dieser Transformation die Phasenwerte auf, um sie bei einer späteren Rücktransformation in den Zeitbereich zu verwenden. Der Parameter Out_magnitude_spectrum enthält auch Werte des Amplituden-Spektrums, aber erst die nach der Spektralen Subtraktion. Dies sind dann die Ausgabewerte im Spektralbereich. Der Parameter Energy enthält die Energiewerte des Frames nach der Filterung durch die Mel-Filterbank. Abb. 4.3.2.1: Struktur mit den verschieden Parametern des Frame

Frame

Magnitude

Phase

Out-magnitude-spectrum

Energy

SNR

Features

Features-available

Page 60: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

60

Der nächste Parameter SNR enthält die Signal-Rausch-Abstands-Werte für jedes Sub-Band, das durch die Mel-Filterbank definiert wird. Dieser Parameter wird erst später, kurz vor der Spektralen Subtraktion berechnet, weil er nur da verwendet wird. Der Parameter Features dient dazu, die Merkmale, die letztendlich in die Ausgabedatei geschrieben werden, aufzunehmen. Das Flag Features_available zuletzt zeigt an, ob für das aktuelle Frame Merkmale existieren und es in die Ausgabedatei geschrieben werden kann, da durch die Berechnung der Ableitungen für jeweils zwei Frames am Anfang und am Ende der Datei keine Merkmale berechnet werden und diese somit nicht in der Ausgabedatei erscheinen. Am Anfang der Parameterberechnungsroutine werden Speicherbereiche für die Elemente der Struktur angefordert und eingerichtet. Sie werden nach dem Schreiben des Merkmalsvektors in die Ausgabedatei wieder freigegeben. Zuerst wird auf das Frame eine Hamming-Fensterung angewendet nach folgender Formel:

−⋅−=

1

2cos46.054.0

N

nwn

π

wobei n der Index des Samples im Frame und N die Anzahl der Samples pro Frame ist. Anschließend wird das Signal in den Spektralbereich mittels Diskreter Fourier-Transformation (DFT) nach folgender Formel transformiert:

∑−

=

⋅⋅⋅−

⋅=1

0

2M

j

M

ji

j efF

µπ

µ

Wobei fj die Abtastwerte im Zeitbereich sind, M ihre Anzahl und µ der Spektral-Index. Es gibt eine Version, die vom Rechner schneller verarbeitet werden kann. Sie wird als Fast Fourier-Transformation (FFT) bezeichnet. Sie kann aber nur verwendet werden, wenn die Anzahl der Samples eine Potenz von 2 ist. Das Sprachsignal muß M-periodisch sein, damit die Fourier-Transformation angewendet werden kann, was aber nicht der Fall ist. Deshalb wird angenommen, daß jeder Frame einer Periode entspricht und periodisch fortgesetzt wird. Da die Anzahl der Samples eines Frames in diesem Fall mit 256

Page 61: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

61

einer Potenz von 2 entspricht, wird auch hier die FFT angewendet. Die Spektralwerte liegen nach Anwendung der FFT in komplexer Form vor. Das Amplitudenspektrum (Betragsspektrum) erhält man nach folgender Formel:

22 ImRe nnnA +=

und nach folgender Formel das Phasenspektrum:

=

n

n

n

Re

Imarctanφ

wobei n der Index der Spektralwerte ist. Die Phaseninformation ist für die Durchführung der Spektralen Subtraktion irrelevant, da nur die Amplitudenwerte subtrahiert werden. Die Phasenwerte werden zwischengespeichert und bis zu einer Rücktransformation in den Zeitbereich mitgeführt. Theoretisch müßte auch die Phase in den Subtraktionsprozess einbezogen werden, was aber schon an der Theorie scheitert, da man bei der Schätzung des Störgeräusches zwar eine Mittelwertbildung der Amplitudenspektren, aber nicht der Phasenspektren durchführen kann. Dies hat aber nur sehr geringfügige Verzerrungen an dem Signal zur Folge, weil die Phaseninformation nicht so wichtig ist wie die Amplitudeninformation. Zum Schluß wird noch eine Filterung des Spektrums mit einer Mel-Filterbank durchgeführt und daraus die Energie des Frames, für jede Filterbank-komponente einzeln berechnet. Die Filterung findet aber nur temporär statt, d.h. das Spektrum wird nicht verändert, sondern nur die Energie daraus berechnet. So steht danach beim Energie-Parameter im ersten Element die Gesamt-Energie des Frames und in den weiteren die der einzelnen Frequenzbereiche der Filterbankelemente oder –kanäle. Die hier verwendete Filterbank besteht aus 31 an der Mel-Skala orientierten trapezförmigen Bandpässen. Ihr Frequenzbereich umfaßt die Frequenzen von 187,5 Hz bis 8000 Hz. Die gleiche Filterbank wird auch später bei der Merkmalsberechnung verwendet. Wenn die Frames im Puffer U als Pause klassifiziert werden, dann werden noch zusätzlich die Störgeräuschspektren geschätzt und die Parameter für die

Page 62: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

62

Spektrale Subtraktion aktualisiert. Davon werden zuerst die Mittelwerte für die Energien der Pausen-Frames berechnet, die dann bei der Berechnung des Signal-Rausch-Abstandes und so auch beim Subtraktionskoeffizienten . verwendet werden. Als nächstes wird der Mittelwert des Amplitudenspektrums berechnet, der auch direkt in der Formel der Spektralen Subtraktion verwendet wird. Bei dieser Berechnung wurde gemäß den theoretischen Überlegungen die gewichtete Hinzunahme des vorherigen Mittelwertes realisiert. Der Ge-wichtungsfaktor wurde mit 0.2 gewählt. Wird er zu groß gewählt, ist der Algorithmus zwar robuster gegen Fehlentscheidungen für die Pause oder zu kleinen Pausen, verliert aber an Adaptivität gegenüber dem Störgeräusch. Da zu kleine Pausen ohnehin nicht erkannt werden und die Entscheidung für eine Pause relativ sicher ist, bringt diese Glättung der Geräuschspektren nichts, wie man auch bei der Evaluation sieht. Eine andere Art der Gewichtung wäre, den Gewichtungsfaktor proportional zur Länge der aktuellen Pause zu berechnen. So hätten längere Pausen eine höhere Gewichtung als kürzere. Bei der Konvertierung der Pausengröße in Frames zum Gewichtungskoeffizientenwert, der im Bereich zwischen 0 und 1 liegt, ist viel Spielraum für Experimente vorhanden. Diese Lösung konnte aber keine über-zeugenden Ergebnisse liefern. Die auditiven Resultate waren sogar schlechter als die normale Glättungsmethode. Es wurde schließlich das erste Gewichtungs-verfahren angewendet, allerdings mit einer Gewichtung von 0.05 (5 %). Schließlich wird das Flag für das Schreiben der Frame-Merkmale in die Aus-gabedatei auf 1 gesetzt, so daß nach der weiteren Verarbeitung und Merkmals-berechnung der Inhalt des Puffers F im Merkmalsberechnungsmodul in die Ausgabe geschrieben werden kann.

4.3.3 Spektrale Subtraktion Dieser Teil bildet den Kern des Geräuschkompensationsalgorithmus, dessen Ablauf in Bild 4.3.3.1 dargestellt ist. Die gestrichelten Pfeile darin bedeuten optionale Vorgänge, die je nach Testfall realisiert und kombiniert wurden. Hier wird die Spektrale Subtraktion in einer Schleife frame-weise durchgeführt, so daß alle Frames im Puffer F verarbeitet werden. Wenn ein einziges Sprach-

Page 63: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

63

Frame eingelesen wurde, befindet es sich ebenfalls in diesem Puffer, und zwar als einziges Element, das verarbeitet wird. Vorher wird jedoch für alle Frames im Puffer der Signal-Rausch-Abstand nach folgender Formel berechnet:

−⋅=

N

NX

E

EESNR log20

wobei EX die Energie des aktuellen Frames ist, das die Störung enthält, und EN die Energie der Störung selber, die während der letzten Pause ermittelt wurde. Da bei dem Sub-Band-Verfahren mehrere Teilbänder betrachtet werden, ist auch der Signal-Rausch-Abstand für jedes Teilband gesondert zu berechnen. Dazu werden die jeweiligen Energien der Mel-Filterbank-Kanäle verwendet. Somit erhält man 31 verschiedene Signal-Rausch-Abstände für jedes Frame. Es folgt eine Begrenzung des Signal-Rausch-Abstands auf positive Werte. Negative Werte werden auf 0 gesetzt. Eine weitere innere Schleife geht alle Spektrum-Indizes durch und wendet darauf die Spektrale Subtraktion an. Als erstes wird darin eine Konvertierung des Spektrum-Index nach dem Kanal-Index vorgenommen. So kann für die jeweilige Frequenz des Frames der richtige SNR-Wert verwendet werden. Wenn man den Kanal-Index auf 0 setzt, erhält man den Signal-Rausch-Abstand für das gesamte Spektrum des Frames und nicht den speziellen für das jeweilige Teilband. Dies wurde auch in einigen Testfällen während der Evaluation vorgenommen, um die Unterschiede zwischen der Sub-Band-Spectral-Subtraction und der Spektralen Subtraktion mit einer Gesamt-Energie SNR-Berechnung zu sehen. Genaugenommen handelt es sich bei dieser Energie nicht um die gesamte Frame-Energie, weil bei der Energie-Berechnung eine Mel-Filterung des Frame-Spektrums durchgeführt wurde und so die Frequenzanteile unter 187,5 Hz ausgelassen wurden. Dies kann aber wegen des kleinen Ausmaßes vernachlässigt werden. Als nächstes wird der Subtraktionskoeffizient . mit Hilfe des aktuellen Signal-Rausch-Abstands berechnet. Die Kennlinie des Koeffizienten ist in Bild 4.3.3.2 gemäß [FM00] dargestellt.

Page 64: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

64

Abb. 4.3.3.1: Ablauf der Spektralen Subtraktion mit optionalen Vorgängen

( )fY

( ) ( ) ( )( )fY

fNfYfH

⋅−=

α

( ) ( ) ( )fHfYfX ⋅=

( ) ( ) ( ) ( )( )

>

=sonstfY

fYfXfXfX

,

ˆ,ˆˆ

β

β

( ) ( )∑−

=

=1

0

1 K

ii fY

KfY

( ) ( ) ( ) ( )fHfHfH ρρ +−= 1

( ) ( ) ( ) ( )lfXlfXlfX ,ˆ1,ˆ1,ˆ ρρ +−−=

Musical-Tones kompensieren

( ){ }fXFT ˆ1−

Zur Merkmalsberechnung

Frame-Spektrum Mittelung der Eingangs-Spektren

Übertragungsfunktion H(f) berechnen

Glättung von H(f)

Ausgangs-Spektrum berechnen

Begrenzung der Spektralwerte

Glättung der Ausgangs-Spektren

Rücktransformation in den Zeitbereich

Page 65: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

65

Die Begrenzung für negative Werte wurde schon vorgenommen, so daß jetzt eine Begrenzung von . auf 2.2 bei 0 dB und auf der anderen Seite auf 0 bei SNR-Werten größer als 40 dB erfolgen muß. Den Maximalwert des Subtraktions-koeffizienten kann man zusätzlich über eine weitere Konstante variieren. Standardmäßig ist sie auf 0.88 gesetzt, was einem Maximalwert von 2.2 für . bedeutet. Die Problematik, die schon im Abschnitt über die VAD erwähnt wurde, daß am Ende der Äußerungen die Energie der Frames stark abnimmt und auf ein ähnliches Niveau wie die der Pausen sinkt, führt auch hier zu Nebenwirkungen, die eher unerwünscht sind. So wird der Signal-Rausch-Abstand sehr klein und folglich der Subtraktionskoeffizient groß, was eine stärkere Subtraktion zur Folge hat, bei ohnehin schon ähnlichem Subtrahenden. So bleibt in diesen Frames nicht viel vom ursprünglichen Signal übrig, was sich im Zeitbereich als ein relativ abruptes Enden der Äußerung bemerkbar macht. Abb. 4.3.3.2: Verlauf des Subtraktionskoeffizienten in Abhängigkeit vom SNR Um dem entgegenzuwirken, wurde der Subtraktionskoeffizient am Anfang der Pause auf einen vordefinierten Minimalwert gesetzt, um dann linear auf den Wert angehoben zu werden, der durch der aktuelle Signal-Rausch-Abstand berechnet wurde. So läßt sich auditiv ein Abklingverhalten am Ende der Äußerung beobachten. Die entscheidenden Parameter dieser linearen Variation

.

SNR (dB) 0 40

2.2

Page 66: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

66

sind erstens die Anzahl der Frames, über die sie laufen soll, und zweitens der Minimalwert von ., der zugleich Startwert am Anfang der Pause ist. Somit läßt sich diese Funktion beliebig variieren. Auditive Beobachtungen haben ergeben, daß eine Länge von 50 Frames ausreicht, um die langgezogensten Frikative zu erfassen. Der Minimalwert von . wurde auf 0.3 gesetzt, obwohl auch mit anderen Werten Versuche durchgeführt wurden. Diese Variationsmethode wird aber nicht bei der ersten Pause am Anfang der Datei angewendet, da vorher keine Äußerung vorhanden ist und so kein Abklingen benötigt wird. Es würde nur ein stärkeres Störgeräusch, das stetig abklingt, am Anfang der Pause hinterlassen. Obwohl diese Variation von . auditiv zu einem besseren Eindruck führt, sind bei der Evaluation in bestimmten Konfigurationen teilweise sogar schlechtere Ergebnisse aufgetreten. Den nächsten Schritt, bildet die Berechnung der Übertragungsfunktion nach folgender Formel:

( ) ( ) ( )( )fY

fNfYfH

⋅−=

α

wobei ( )fY das Spektrum des aktuellen Frames und ( )fN das gemittelte

Störgeräuschspektrum aus der letzten Pause ist. Es wäre sicher effizienter, keine Übertragungsfunktion zu berechnen, sondern direkt die Spektrale Subtraktion, die im Zähler der Formel steht, durchzuführen, was auch am Anfang der Entwicklungsphase gemacht wurde. Es entstehen so zusätzliche Divisionen und Multiplikationen, weil die Über-tragungsfunktion im nächsten Schritt mit dem Spektrum des aktuellen Frames multipliziert wird, das ja schon im Nenner steht. Da aber nach [VM97] eine Glättung der Übertragungsfunktion positive Auswirkungen haben kann, wurde nun so verfahren. Sobald man im zweiten oder einem weiteren Frame der Eingabedatei ist, wird nun die Übertragungsfunktion mit ihrem vorherigen Wert geglättet. Der Gewichtungskoeffizient für die aktuelle Übertragungsfunktion wurde hier mit 0.8 gewählt. Danach findet die Berechnung des Ausgangsspektrums statt. Die eigentliche Spektrale Subtraktion wurde schon bei der Berechnung der Übertragungs-funktion durchgeführt. Hier wird lediglich das aktuelle Frame-Spektrum mit der Übertragungsfunktion multipliziert. Es wurde auch hier eine Glättung der

Page 67: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

67

Ausgangsspektren realisiert, was zu einer Eliminierung von großen Sprüngen der Frequenzen zwischen aufeinanderfolgenden Frames führt. Der Gewichtungs-koeffizient wurde auch mit 0.8 gewählt, wie bei der Glättung der Übertragungs-funktion. Bei einer zu starken Glättung treten Hall-Effekte im Ausgangssignal auf. Diese sind ab einem Gewichtungsfaktor von 0.5 deutlich zu hören. Bei der Spektralen Subtraktion kann es vorkommen, daß für das Ausgangs-spektrum negative Werte durch einer Überschätzung des Störgeräusches berechnet werden, wodurch u.a. die schon in Kapitel 3 erwähnten Musical Tones entstehen. Besonders die Pausen tendieren zu Musical Tones, da das aktuelle Spektrum und die Störgeräuschschätzung ungefähr gleich sind, so daß das Störgeräusch wegen des niedrigen Signal-Rausch-Abstandes evtl. mit einem Subtraktionsfaktor größer als 1 multipliziert wird. Um dies zu vermeiden, wird nachträglich eine Überprüfung des Ausgangsspektrums vorgenommen. Es gibt zwei Methoden dafür. Die sogenannte Full-Wave-Rectification [DS96] und die Half-Wave-Rectification [VM97]. Bei der ersten wird der Absolutbetrag der Wertes nach der Subtraktion verwendet (siehe Kapitel 3), was zu einer stärkeren Reduktion der Musical Tones führt, aber das Störgeräusch nicht so stark wie bei der zweiten Methode kompensiert. Hier wurde die Half-Wave-Rectification verwendet, da sie auch bessere auditive Ergebnisse liefert. Dabei wird eine Überprüfung nach folgender Formel vorgenommen:

( )( ) ( ) ( )( )

>

=sonstfY

fYfXfXfX

,

ˆ,ˆˆ

β

β

wobei ( )fX das Ausgangsspektrum, ( )fY das Spektrum des aktuellen

Frames und � der sogenannte Flooring-Koeffizient ist. Dieser Parameter ist frei wählbar zwischen 0 und 1. Seine richtige Wahl spielt eine wesentliche Rolle für das Ergebnis, was auch bei der Evaluation deutlich wurde. Für die Verwendung verschiedener � –Werte für einzelne Frequenzbereiche wird ein Array benutzt. Diese Methode hatte jedoch keine Fortschritte bei den Ergebnissen während der Evaluation gebracht. Als nächstes wird das Ausgangsspektrum einer Glättung mit dem Wert des vorherigen Frames unterzogen. Der Glättungsfaktor wurde mit 0.8 für das aktuelle Frame gewählt.

Page 68: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

68

Es gibt noch eine weitere Möglichkeit nach [VG96], die Musical Tones nach-träglich aus dem Signal zu entfernen. Sie basiert auf der Tatsache, daß die Musical Tones aus zufälligen Frequenzen von kurzer Dauer und relativ niedriger Amplitude bestehen. Ihre Dauer überschreitet im Regelfall nicht die 3 Frames. So wurde ein Algorithmus realisiert, der die Spektren der Frames nach der Spektralen Subtraktion auf solche Frequenzen hin untersucht. Es wird ein Fenster verwendet, das als Frame-Puffer realisiert wurde, welches das entstörte Signal analysiert und solche Frequenzen kompensiert, falls sie bestimmten Kriterien entsprechen. Als erstes dürfen sie nicht länger als 3 Frames vorhanden sein und zweitens in keinem dieser Frames einen höheren Wert als eine vorher festgelegte Schwelle besitzen. Sonst bleiben sie unverändert erhalten. Dies wurde in einer eigenen Prozedur realisiert. Dabei stellte sich die Bestimmung des optimalen Wertes für den Schwellwert des Maximums der Musical Tones, sowie für die Untergrenze, ab der ein Spektralwert als 0 angesehen werden konnte, als sehr problematisch heraus, da sehr selten ein Spektralwert genau 0 sein wird und so im ersten Kriterium zu einer Entscheidung beitragen kann. Diese Werte wurden durch die Analyse mehrerer Dateien mit verschiedenen Störgeräuschpegeln empirisch ermittelt. Da sie aber an die Signal-Rausch-Abstand-Verhältnisse in den verschiedenen Dateien angepaßt werden müssen, wurde dies automatisch in Abhängigkeit von den spektralen Mittelwerten der betrachteten Frames durchgeführt. Erst nach dieser Musical-Tones-Kompensation wurde die Merkmalsberechnung durchgeführt. In der Praxis hat diese Methode stark negative Einflüsse auf das Ergebnis der Evaluation, da auch Nutzanteile des Spektrums unvermeidbar kompensiert wurden, weshalb darauf schließlich verzichtet wurde. In einer weiteren Variante der Berechnung der Übertragungsfunktion wird anstatt des aktuellen Frame-Spektrums eine Mittelung über die letzten Frame-Spektren verwendet [VM97]. Dies wäre somit eine Approximation des Wiener-Filters [VG96]. Allerdings erfordert das Wiener-Filter eine gewisse Stationarität der Signale, was bei Sprachsignalen nicht der Fall ist. Deshalb sollte man diese Mittelung nur über wenige Frames durchführen, so daß eine Quasistationarität angenommen werden kann. Es wurden somit 3 bis 5 Frames verwendet. Die besten Ergebnisse wurden mit einer Mittelung über 4 Frames erreicht. Es werden nur die Ausgangsspektren der letzten 4 Frames in einem dafür vorgesehenen Puffer nach dem FIFO-Prinzip gespeichert und der Mittelwert davon gebildet. Wenn sich am Anfang der Datei noch keine 4 Frames im Puffer befinden, wird nur über die darin vorhandenen gemittelt. Somit wurde auch eine Art Wiener-Filterung in dieser Arbeit realisiert.

Page 69: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

69

4.3.4 Merkmalsberechnung Der nächste und letzte Schritt in der Geräuschkompensationsroutine ist die Merkmalsberechnung, die in einer eigenen Prozedur durchgeführt wird. Es gibt verschiedene Versionen der Merkmalsberechnung, die ein fester Bestandteil von ESMERALDA sind. Sie sind als Bibliotheksfunktionen darin implementiert. Allerdings erfordern sie die Übergabe der Frames in Form von Samples, was bedeutet, daß die Spektren erst wieder in den Zeitbereich rücktransformiert werden müssen, um anschließend innerhalb dieser Routinen nochmals eine FFT-Transformation der Signal-Frames vorzunehmen. Dieses Vorgehen ist aber sehr ineffizient und birgt potentielle Qualitätsverluste durch die mehrfachen Transformationen. Deshalb wurde diese Funktion selber implementiert, so daß direkt die Spektren übergeben werden können. Der Ablauf der Basisversion ist in Bild 4.3.4.1 dargestellt. Anfangs wurde die Basisversion der Merkmalsberechnung verwendet, womit auch die meisten Evaluierungen durchgeführt wurden. Als erstes wird bei der Bibliotheksfunktion eine Hamming-Fensterung des Frames durchgeführt. Das erfolgt in der Geräuschkompensationsroutine schon zu Anfang und erfordert außerdem, daß die Frame-Werte im Zeitbereich vorliegen. Daher wird hier zum nächsten Schritt gesprungen, der nur hier implementiert ist, nämlich die Konvertierung des Amplituden- in ein Leistungsspektrum. Anschließend wird eine Mel-Filterbank durchlaufen und daraus die Energie berechnet. Die Mel-Filterbank ist die gleiche, die auch für die Parameter-berechnung der Frames verwendet wurde. Anschließend wird der Energie-Vektor logarithmiert und einer Diskreten Kosinus-Transformation (DCT) übergeben, die daraus die Cepstralwerte berechnet. Somit erhält man neben dem ersten Merkmal, das die Gesamtenergie des Frames bezeichnet, noch die weiteren 12 Cepstralkoeffizienten. Daraus werden dann die 1. und 2. Ableitung, durch Hinzunahme der Nachbar-Frames berechnet und zu einem 39-Dimen-sionalen Merkmalsvektor zusammengefaßt.

Page 70: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

70

Bei den erweiterten Versionen der Merkmalsberechnung werden noch weitere Berechnungen und Verarbeitungsschritte durchgeführt, die in Bild 4.3.4.2 dargestellt werden. Das erste davon, ist die Präemphase, die auf das Frame im Zeitbereich angewendet wird und durch folgende Formel beschrieben wird:

1−⋅−= iii ssp α

wobei p der gefilterte und s der Original-Abtastwert ist. Der Gewichtungsfaktor . kann Werte zwischen 0.9 und 1.0 einnehmen, wobei hier der Standardwert 1.0 verwendet wurde. Dazu muß das Frame im Zeitbereich vorliegen, was eine Rücktransformation mit einer inversen FFT erfordert. Durch die Präemphase werden tiefe Frequenzen gedämpft und hohe etwas verstärkt, wodurch schon eine gewisse Kompensation des Motorgeräusches stattfindet, da es sich größtenteils im niederen Frequenzbereich befindet. Diese Präemphase wird hier Frame-weise durchgeführt, was wegen möglicher steiler Kanten an den Frame-Übergängen störende Frequenzanteile erzeugt. Es gibt deshalb auch die Möglichkeit, sie auf der gesamten Signaldatei anzuwenden, bevor sie von dem Merkmalsberechnungsmodul verarbeitet wird. Der Unterschied wurde durch verschiedene Evaluationsfälle aufgezeigt. Eine weitere Änderung wird auch an der Energieberechnung vorgenommen. Dort wird ein Histogramm, ähnlich dem in der VAD, verwendet. Allerdings ist die Skalierung mit anderen Werten versehen. Danach wird nochmals eine Hamming-Fensterung vorgenommen und anschließend das Signal in den Frequenzbereich mittels FFT transformiert. Eine weitere Eigenschaft der erweiterten Merkmals-berechnung ist die anschließend durchgeführte Kanaladaption. Sie wird mit Hilfe der cepstralen Mittelwertbereinigung [WS97] realisiert, die eine Anpassung an den Übertragungskanal vornimmt und sich somit ebenfalls leicht an die Störung adaptiert. Am Ende der Merkmalsberechnungsroutine wird der Parameter gesetzt, der das Schreiben der Merkmale in die Ausgabedatei steuert. Danach wird zur Geräuschkompensationsroutine und zum Merkmalsbere-chnungsmodul zurückgegangen.

Page 71: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

71

Abb. 4.3.4.1: Ablauf der Basisversion der Merkmalsberechnung

Amplituden- Spektrum

X

( )2X

( )elog

Mel-Filterbank

DCT

1. + 2. Ableitung

Merkmalsvektor

Leistungs-Spektrum

Energie

log. Energie

Cepstralwerte Gesamt-Energie

Page 72: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

72

Abb. 4.3.4.2: Ablauf der erweiterten Version der Merkmalsberechnung

Frame

Präemphase

Energie-Histogramm

Hamming-Fensterung

( FFT )2

Kanaladaption

1. + 2. Ableitung

DCT

log. Energie berechnen

Mel-Filterbank

log( e )

Gesamt-Energie

Merkmalsvektor

Page 73: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

73

Kapitel 5 Evaluation Dieses Kapitel befaßt sich mit den Ergebnissen der Evaluation, die mit Sprach-daten durchgeführt wurde, die durch den implementierten Geräuschkompensati-onsalgorithmus entstört wurden. Es wird anfangs die Konfiguration des Spracherkennungssystems behandelt und die Sprachdaten beschrieben. Anschließend werden die verwendeten Evaluierungskriterien dargestellt. Darauf folgt der Hauptteil, der sich mit den Experimenten und deren Ergebnissen befaßt. Abschließend erfolgt eine Beurteilung, inwieweit sich die Erkennungsleistung des Spracherkennungssystems durch die Geräuschkompensation verbessert hat.

5.1 Konfiguration des Spracherkennungssystems Die Einstellungen für die Signalerfassung wurden schon in Kapitel 4 be-schrieben. Für die Merkmalsberechnung werden verschiedene Methoden verwendet, die alle im Rahmen von ESMERALDA implementiert sind und so kompatibel zu dem verwendeten Spracherkennungssystem sind. Die meisten Experimente wurden mit der Basisversion der Merkmalsberechnung durch-geführt in der statische und dynamische MFCC-Merkmale, sowie die Energie in Form von 39-dimesionalen Vektoren berechnet werden. Die erweiterte Version der Merkmalsberechnung ermittelt die Gesamt-Energie über ein Histogramm und führt vorher eine Präemphase des Signals durch. Zusätzlich wird eine Kanaladaption auf die statischen Merkmale angewendet. In den meisten Experimenten wurde jedoch die Basisversion verwendet, da die erweiterte Version Merkmale erzeugt, die durch die Präemphase und die Kanaladaption robuster gegen Störgeräusche sind. Daher ist in dieser robusteren Merkmals-

Page 74: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

74

berechnung schon ein gewisses Maß an Geräuschkompensation vorhanden, was eine Verbesserung der Erkennungsrate durch ein externes Verfahren erheblich dämpft. Deswegen wurde größtenteils mit der Basisversion evaluiert, die weniger robuste Merkmale gegenüber Störgeräuschen erzeugt. So können bessere Aussagen über das Ergebnis des Einsatzes des Geräuschkompensations-algorithmus gewonnen werden. Für die Klassifikation werden semikontinuierliche Hidden-Markov-Modelle (HMMs) mit linearer Struktur und variabler Zustandszahl verwendet. Als Wortuntereinheiten werden Triphone ohne Generalisierung eingesetzt, wobei ein Zustands-Tying durch Clusteranalyse stattfindet. Eine detailliertere Beschreibung des Spracherkennungssystems ist in [FK99] beschrieben.

5.2 Stichproben Die Evaluationen wurden mit Sprachdaten durchgeführt, die aus der Anwen-dungsdomäne der Sprachsteuerung von nicht sicherheitsrelevanten Fahrzeug-funktionen, wie z.B. dem Radio, der Klimaanlage, dem Navigationssystem oder dem Autotelefon, stammen. Die verwendeten Sprachdaten wurden dem Bielefelder SLACC-Datensatz (Spoken Language Car Control) entnommen. Sie wurden in verschiedenen Fahrzeugtypen bei unterschiedlichen Geschwin-digkeiten und Witterungsverhältnissen mit gleichzeitig zwei verschiedenen Mikrofonen, einem entfernt platzierten und einem Nahbesprechungsmikrofon, aufgenommen. Für die überwiegende Mehrheit der Experimente wurden die Sprachdaten vom entfernt platzierten Mikrofon verwendet, da es mehr Störgeräusche mit einem höheren Pegel aufnimmt, als das Nahbesprechungsmikrofon. Weiterhin ist der Signal-Rausch-Abstand dieser Daten deutlich niedriger, so daß der Geräusch-kompensationsalgorithmus unter schwierigeren Bedingungen entwickelt und getestet werden konnte. Außerdem wird in der Praxis bei der Sprachsteuerung im Fahrzeug meist ein solches Mikrofon verwendet und kein Headset. Nur bei einigen Evaluationen am Anfang wurden auch Daten des Nahbespre-chungsmikrofons verwendet, allerdings nur für das Training des Sprach-

Page 75: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

75

erkenners. Oft werden in Evaluationen von Geräuschkompensationsverfahren Sprachdaten verwendet, denen ein konstantes Störgeräusch künstlich überlagert worden ist. Die Ergebnisse damit werden sicher besser als in der Realität sein, da ein solches stationäres Geräusch viel besser kompensiert werden kann, als die unvorhersehbaren und instationären Störgeräusche, die im Realfall in Fahrzeugen auftreten. Die hier verwendeten Sprachdaten sind nicht künstlich mit einem Störgeräusch überlagert, sondern wurden im Fahrzeug mit real vor-kommenden Geräuschen aufgenommen, die zudem noch oft instationär sind. Deshalb ist die Effizienz des Geräuschkompensationsalgorithmus beschränkter, aber man erhält gute Aussagen über das Ergebnis im späteren praktischen Einsatz des Verfahrens. Die Äußerungen sind in der Regel sehr kurz und in einzelne Dateien unterteilt. Der Datensatz umfaßt insgesamt 22 Sprecher und 10984 Äußerungen, die in 5 verschiedenen Fahrzeugen aufgenommen wurden. Der Wortschatz beinhaltet insgesamt 658 Wortformen. Für die Evaluation wurde der Datensatz aufgeteilt. Als Trainingsmenge dienten 18 Sprecher mit 9243 Äußerungen und als Teststichprobe wurden die übrigen 4 Sprecher mit 1741 Äußerungen verwendet. Es wurde noch eine weitere Aufteilung des Datensatzes verwendet, um die Einflüsse des Mittrainierens der charakteristischen Geräusche der einzelnen Fahrzeuge auf die Erkennungsrate zu analysieren. Hierfür wurden 2 Sprecher aus der Trainingsmenge entfernt, die in einem bestimmten Fahrzeug aufgenommen waren. So war das Fahrzeug nicht mehr im Training vorhanden. Die Sprachdaten dieser 2 Sprecher bildeten dann die Teststichprobe.

5.3 Evaluationskriterien Das Kriterium für den Erfolg durch den Einsatz der Geräuschkompensation ist letztendlich nicht eine auditive Verbesserung der Signalqualität der Sprachdaten, sondern eine Erhöhung der Erkennungsrate des Spracherkennungssystems. Für die anfängliche Bewertung einer Funktionserweiterung im Geräuschkompen-sationsalgorithmus, sowie dessen grobe Justierung ist aber eine auditive Beur-teilung viel praktischer, da sie schnell stattfindet und den Test vieler Änderungen

Page 76: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

76

in kurzer Zeit ermöglicht, wohingegen die Ermittlung der Erkennungsrate des Spracherkennungssystems sehr lange dauert und somit keine Flexibilität zuläßt. Die auditive Beurteilung ist allerdings sehr subjektiv und liefert nicht immer die selben Ergebnisse wie die Ermittlung der Erkennungsrate. So kann es vor-kommen, daß obwohl sich das Signal durch eine Funktion zu verbessern scheint, die Evaluierung mit dem Spracherkennungssystem eine schlechtere Erkennungs-rate liefert. Deshalb wurde nur für die anfängliche Bewertung nach jeder Implementation neuer Methoden in der Geräuschkompensationsroutine eine auditive Beurteilung mit Hilfe von Audioanalyse-Tools durchgeführt. Die eigentliche Evaluation wurde mit dem Spracherkennungssystem durchgeführt, das mit der entstörten Trainingsmenge trainiert wurde. Die Teststichprobe wurde ebenfalls mit dem Geräuschkompensationsalgorithmus entstört. Als Resultat erhält man die Erkennungsqualität mit einigen zusätzlichen Parametern. Als Maß für die Erkennungsqualität wird die Wortakkuratheit (WA), bzw. die Wortfehlerrate (WER) verwendet. Sie sind die am meisten verwendeten Gütekriterien in der Spracherkennung. Die Gütemaße sind durch folgende Beziehung von einander ableitbar:

WA = 100 % – WER (in Prozent) Zur Berechnung der Wortfehlerrate werden der Referenztext und das vom Spracherkenner gelieferte Erkennungsergebnis wortweise einanander zu-geordnet und der Levenstein-Abstand zwischen ihnen berechnet. Dabei wird die Anzahl von Vertauschungen ( Nsub ), ausgelassenen Referenzwörtern ( Ndel ) oder eingefügten Hypothesen ( Nins ) ermittelt und addiert. Diese Summe wird dann durch die Anzahl aller Referenzwörter ( Nall ) dividiert. Die Berechnungs-vorschrift für die Wortfehlerrate sieht dann folgendermaßen aus [ST95]:

all

insdelsub

N

NNNWER

++=

Bei einer fehlerfreien Erkennung, also ohne Vertauschungen, Löschungen oder Einfügungen von Hypothesen, ergibt sich eine Wortfehlerrate von 0 und eine

Page 77: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

77

Wortakkuratheit von 1 oder 100 %. In den Ergebnissen der Experimente wird die Erkennungsleistung als Wortakkuratheit in Prozent angegeben. Daneben werden auch die Vertauschungen, Löschungen und Einfügungen, ebenfalls in Prozent ausgegeben. Die Wortfehlerrate eignet sich besonders zur Angabe von relativen Verbesser-rungen in der Erkennungsrate. Insbesondere bei Spracherkennungssystemen mit einer bereits sehr hohen Wortakkuratheit werden Verbesserungen sehr deutlich gemacht. Diese Angabe wird aber hier erst am Ende verwendet, um das End-ergebnis vollständig zu beschreiben. Für die Ergebnisse aller Experimente wird sonst immer die Wortakkuratheit angegeben.

5.4 Experimente Die Experimente wurden noch während der Entwicklung des Geräusch-kompensationsalgorithmus durchgeführt, um erkennen zu können, ob die richtigen Ansätze verfolgt wurden. Nur wenige Experimente wurden aber vor der kompletten Implementierung des Algorithmus durchgeführt. Neue Funktiona-litäten wurden als Module integriert und je nach Ergebnis weiterverwendet oder verworfen. Da es mehrere Parameter gab, die einen mehr oder weniger signifikanten Einfluß auf das Ergebnis haben, wurden viele Experimente durchgeführt, um die optimale Einstellung dieser Parameter zu erzielen. Somit wurden über 90 Experimente durchgeführt, deren überwiegende Mehrheit auch ein Training des Spracherkenners umfaßte und deshalb sehr zeitaufwendig waren. Nur die ersten 5 Experimente bestanden lediglich aus dem Entstören der Sprachdaten, der Merkmalsberechnung, sowie den Erkennungsprozess durch einen schon vorhandenen Spracherkenner. Als erstes wurden Experimente ohne Anwendung des Geräuschkompensations-algorithmus durchgeführt, die als Referenz dienten, um so den Einfluß der Geräuschkompensation auf die Erkennungsrate bewerten zu können. Als Güte-kriterium wurde die schon in Kapitel 5.3 erwähnte Wortakkuratheit verwendet.

Page 78: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

78

Die verschiedenen Experimente, die mit der Variation eines bestimmten Parameters zu tun haben, werden gemeinsam behandelt und nur das Endresultat dargelegt. Der nächste Abschnitt befaßt sich mit den ersten Experimenten, die mit einem mit unentstörtem Sprachmaterial und einmalig trainiertem Sprach-erkennungssystem durchgeführt wurden. Der darauf folgende Abschnitt beschreibt schließlich die Experimente, in denen auch das Spracherkennungs-system mit den geräuschkompensierten Sprachdaten trainiert wurde und die Mehrheit der Experimente umfaßt.

5.4.1 Evaluation ohne entstörte Trainingsmenge Bei den ersten Experimenten wurden nur die Daten der Teststichprobe mit dem Geräuschkompensationsalgorithmus entstört. Die Teststichprobe enthält in diesem Fall Daten, die mit dem entfernt platzierten Mikrofon aufgenommen wurden. So enthalten diese Sprachdaten Störgeräusche mit einem höheren Pegel und haben entsprechend einen niedrigen Signal-Rausch-Abstand. Für das Training des Spracherkennungssystems wurden aber Sprachdaten verwendet, die mit dem Nahbesprechungsmikrofon aufgenommen wurden. So erhält man Ergebnisse, die näherungsweise denen eines mit ungestörten Daten trainierten Spracherkennungssystems entsprechen. Da die Trainingsmenge nicht entstört wird, braucht das Training des Spracherkennungssystems nur einmal durchgeführt zu werden. Danach wurde das selbe Spracherkennungssystem für alle Experimente in der Anfangsphase der Entwicklung des Geräusch-kompensationsalgorithmus verwendet. Diese Experimente haben weniger gute Ergebnisse geliefert, da erstens der Geräuschkompensationsalgorithmus noch nicht komplett implementiert und die Trainingsmenge nicht frei von Störgeräuschen war. Außerdem wurde der Sub-traktionskoeffizient α nicht automatisch nach der in Kapitel 4 dargestellten Kennlinie eingestellt, sondern hatte einen festen Wert, der für das verwendete Spracherkennungssystem zu hoch war. Die Ausgabedaten klangen auditiv recht entstört und es waren kaum Störgeräusche in den Pausen vorhanden. Da jedoch die Trainingsmenge in den Pausen noch einen gewissen Störgeräuschpegel enthält, wurde der abrupte Übergang vom Wortende zum Pausenanfang als

Page 79: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

79

Glottisverschluß zugeordnet. Die Folge waren sehr viele Einfügungen (46 %) vor allem des Wortes “ab“ anstelle der Pausen. So sank die Wortakkuratheit von 55 % im Referenzexperiment, auf 17 %. Ein weiteres Experiment mit einem sehr niedrigen, konstanten α was eine geringe Geräuschkompensation bedeutet, ergab eine Wortakkuratheit von 52 %. Für diese Experimente wurde die Sub-Band-Spektrale Subtraktion verwendet, jedoch noch keine automatische Sprach-Pausen-Detektion (VAD). Die Detektion der Pausen erfolgte über Segmentierungsdateien, welche die Grenzen der Äußerungswörter und –pausen enthalten. Dadurch war eine optimale Sprach-Pausen-Detektion möglich. Bei Verwendung der VAD, sank die Wortakkuratheit weiter auf 14 %. Die VAD war zwar Energie-Histogramm-basiert, aber die Pausen wurden nicht nach dem in Kapitel 4 aufgeführten Prinzip erkannt. Trotz der schlechten Ergebnisse konnte durch Variation einiger Parameter die Richtung erkannt werden, in der eine Verbesserung des Ergebnisses erfolgte.

5.4.2 Evaluation mit entstörter Trainingsmenge Für die Kategorie von Experimenten, die nach der vollständigen Implemen-tierung des Geräuschkompensationsalgorithmus durchgeführt wurden, ist das Spracherkennungssystem mit der durch den Geräuschkompensationsalgorithmus entstörten Trainingsmenge trainiert worden. Für jedes einzelne Experiment wurde neu trainiert. Als Grenze für den Trainingsprozess wurden 11 Iterationen festgelegt, weil danach keine signifikante Verbesserung des Ergebnisses festgestellt wurde. Diese Vorgehensweise ermöglicht ein Mittrainieren der möglichen Reststörungen, die nach der Geräuschkompensation vorhanden sind was eine erhöhte Robustheit zur Folge hat.

Page 80: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

80

Basisversion der Merkmalsberechnung Das Referenzexperiment, bei dem auf die Test- bzw. Trainingsmenge keine Geräuschkompensation angewendet wurde, ergab eine Wortakkuratheit von 68,3 % unter Verwendung der Basisversion der Merkmalsberechnung. Das Basisexperiment mit der Standardkonfiguration des Geräuschkompensations-algorithmus, d.h. mit Sub-Band-basierter Spektraler Subtraktion, automatischer Einstellung des Subtraktionskoeffizienten α gemäß der in Kapitel 4 dargestellten Kennlinie, sowie den Einsatz einer VAD wird eine Wortakkuratheit von 53,5 % erzielt. Aus dieser Konfiguration des Basisexperiments wurden die verschiedenen Parameter variiert und neue Funktionalitäten eingesetzt, deren Ergebnisse wiederum mit neuen Experimenten gewonnen wurden. Als erste Änderung in der Konfiguration des Basisexperiments deren Aus-wirkungen untersucht wurden, ist die Verwendung, einer Berechnung des Signal-Rausch-Abstands mittels der Gesamtenergie des Frames anstatt der üblicher-weise verwendeten Sub-Band-Methode. Die Wortakkuratheit war in diesem Fall mit 58,7 % etwas höher. Es hat sich aber im weiteren Verlauf gezeigt, besonders bei Kombinationen von Parameteränderungen und Funktionalitäten, daß die Sub-Band Spektrale Subtraktion in der Regel bessere Ergebnisse liefert als die Gesamtenergie-Methode.

Experiment Referenz (ohne GK) Basis (mit GK) WA 68,3 % 53,5 %

Tabelle 5.4.2.1: Vergleich der Wortakkuratheit für das System mit unentstörter und mit der Basiskonfiguration des Geräuschkompensationsalgorithmus ent-störter Trainingsmenge Bei Verwendung einer anderen Signal-Rausch-Abstand-Berechnung, in der als Zähler die Energie des gestörten Sprachsignals ohne Subtraktion der Stör-signalenergie eingesetzt wird, sinkt die Wortakkuratheit auf 48,9 %, was die angewandte Signal-Rausch-Abstands-Berechnung rechtfertigt.

Page 81: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

81

Eine weitere Funktionalität sind die verschiedenen eingesetzten Glättungen. Der erste Fall betrifft die Glättung der Ausgangsspektren nach der Spektralen Subtraktion. Als Glättungsfaktor ρ wurde 0.8 für das aktuelle Frame gewählt. Er sollte aber nicht zu hoch gewählt werden, da sonst Halleffekte im Ausgangssignal auftreten können. Dies war auch besonders deutlich zu hören ab einem Glättungsfaktor von 0.5. Der hier verwendete Wert von 0.8 stellt einen guten Kompromiß dar. Das Resultat war eine Erhöhung der Wortakkuratheit auf 58,4 %. Ein weiterer Fall betrifft die Glättung der Übertragungsfunktion H(f). Der Glättungsfaktor ρ war hier auch mit 0.8 für das aktuelle Frame gewählt worden. Eine große Verbesserung gab es aber nicht, denn die Wortakkuratheit lag bei 54,3 %. Eine weitere Glättung ist die, der gemittelten Störgeräuschspektren zwischen zwei Pausen. So wird nicht nur der Wert der aktuellen, sondern auch der gewichtete Wert der vorherigen Pause hinzugenommen. Der Glättungsfaktor wurde mit 0.75 für die aktuelle Pause gewählt. Wie schon in Kapitel 4 erwähnt, bringt aber diese Glättung nicht viel, da die Pausen recht stabil und erst ab einer bestimmten Größe als solche Klassifiziert werden. Als Resultat kommt eine Wortakkuratheit von 53,9 % heraus. Eine weitere Möglichkeit die getestet wurde, ist die Berechnung der Über-tragungsfunktion H(f) nicht mit dem Spektrum des aktuellen Frame, sondern mit einer Mittelung über die 4 letzten Frames. So erhält man eine Approximation des Wiener-Filters. Die Mittelung sollte aufgrund der Instationarität des Eingangs-signals, sich nicht über viele Frames erstrecken. Es wurden Experimente auch mit 3 und 5 Frames durchgeführt, aber die besten Ergebnisse lieferte die Konfiguration mit einer Mittelung über 4 Frames. Die Wortakkuratheit betrug in diesem Fall 58,8 %, was eine Erhöhung gegenüber der Standardkonfiguration bedeutet. Als nächster Parameter wurde der Faktor der Abklingfunktion für das Wortende zum Übergang in die Pause, variiert. Es ergibt sich schließlich, daß diese Abklingfunktion zwar auditiv einen besseren Eindruck hinterläßt, aber die Erkennungsrate verschlechtert. In der oben erwähnten Standardkonfiguration wurde sie verwendet. Wenn man sie ausläßt, erhält man eine Wortakkuratheit von 59,7 %. Mit einer Kombination der oben genannten Gesamtenergie-berechnung und dem Auslassen der Abklingfunktion erzielte man sogar eine Wortakkuratheit von 63,4 %. Die Ursache dafür kann darin liegen, daß am Anfang der Pause und der Abklingfunktion, der Subtraktionskoeffizient abrupt

Page 82: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

82

erniedrigt wird. So entsteht für kurze Zeit ein hoher Störsignalpegel, der so alle Wortendungen charakterisiert und einen negativen Einfluß auf die Erkennungsrate ausübt.

Experiment Basis (mit GK) Mittelung der

Eingangsspektren Ohne

Abklingfunktion WA 53,5 % 58,8 % 59,7 %

Tabelle 5.4.2.2: Vergleich der Wortakkuratheit für das System mit der Basis-konfiguration des Geräuschkompensationsalgorithmus und zusätzlicher Mittelung der Eingangsspektren, sowie ohne Abklingfunktion In den bisherigen Experimenten wurde für den Begrenzungskoeffizienten β der Spektralen Subtraktion ein Wert nahe 0 gewählt, so daß in den Pausen kaum Restgeräusche vorhanden waren. Dies begünstigt aber die Erzeugung von Musical Tones und führt zu abrupten Übergängen bei Wortenden zu Pausen-anfängen. Durch eine Erhöhung dieses Koeffizienten, ist ein gewisser Störgeräuschpegel in den Pausen des Ausgangssignals vorhanden. Mit einem Wert von 0.25 und ohne Abklingfunktion wurde eine deutliche Steigerung der Wortakkuratheit auf 71,8 % erreicht, was das Ergebnis des Referenzexperiments übertrifft. Durch Experimente mit verschiedenen Werten für β, hat sich gezeigt, daß das beste Resultat bei 0.25 erreicht wird. Die Abklingfunktion wirkt sich hier ebenfalls negativ auf das Ergebnis aus, auch wenn nicht so deutlich wie bei einem niedrigen β. Deshalb wurde sie nicht mehr bei den weiteren Experimenten eingesetzt. Bisher wurde der Begrenzungskoeffizient β immer fest für Sprachsegmente, Pausen und alle Frequenzen verwendet. Nach einigen in Kapitel 3 behandelten Ansätzen, kann man ihn getrennt für Sprachsegmente und Pausen , sowie ver-schiedene Werte abhängig von der Frequenz verwenden, ähnlich der Signal-Rausch-Abstands-Berechnung bei der Sub-Band-basierten Spektralen Sub-traktion. Die Ergebnisse dieser Experimente waren aber nicht so gut wie die, mit einem festen Wert für β . Der Wert für die Pausen sollte niedriger sein, als der für die Sprachsegmente. Deshalb wurde für die Pausen der Wert 0.15 und für die Sprachsegmente 0.25 gewählt. Die Wortakkuratheit für die Verwendung separater β–Werte für Sprach- bzw. Pausenabschnitte betrug 70,2 %. Für das

Page 83: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

83

Experiment mit Frequenzabhängigkeit von β, wurden Werte zwischen 0.2 und 0.25 gewählt. Die Wortakkuratheit betrug in diesem Fall 70,6 %. Im nächsten Schritt wurden die Parameteränderungen und Funktionalitäten, die zu einem besseren Ergebnis geführt haben als die Standardkonfiguration, miteinander kombiniert. Die meisten Kombinationen führten aber nicht zu einer Verbesserung des Resultats. Als Basis wurde die Konfiguration mit einem β von 0.25 gewählt. Die Kombination mit der Gesamtenergie-basierten Signal-Rausch-Abstand-Berechnung erzielte eine Wortakkuratheit von 70 % und die Kombi-nation mit der Glättung der Ausgangsspektren 71 %. Nur die Kombination mit der Mittelung der Eingangsspektren über 4 Frames brachte eine Erhöhung der Wortakkuratheit auf 72 %.

Experiment Basis (mit GK) Hohes β Mittelung der

Eingangsspektren und hohes β

WA 53,5 % 71,8 % 72 % Tabelle 5.4.2.3: Vergleich der Wortakkuratheit für das System mit der Basis-konfiguration des Geräuschkompensationsalgorithmus und Verwendung eines hohen β, sowie eine Kombination von hohem β und einer Mittelung der Eingangsspektren Als nächstes wurde der Koeffizient β variiert, ohne eine Verbesserung des Ergebnisses. Auch die Variation der Frame-Anzahl für die Mittelung ergab ebenfalls keine Verbesserung. Es wurde noch der Maximalwert für den Subtraktionskoeffizienten α variiert, was aber auch nicht zu einem besseren Ergebnis geführt hat. Die Verwendung von Leistungsdichte-, anstatt von Amplitudenspektren, führte zu einer deutlichen Abnahme der Wortakkuratheit. Einige Veränderungen bei der Störgeräusch-Mittelwertbildung in den Pausen, brachte ebenfalls keine Verbesserung. Die einzelnen Resultate, können der Tabelle im Anhang entnommen werden. Die letzten Parameter, die mit der Basisversion der Merkmalsberechnung variiert wurden, sind diejenigen, die mit der Sprach-Pause-Detektion zu tun haben. Als erste davon sind die VAD-Parameter, die über eine Datei weitergeleitet werden.

Page 84: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

84

Das Rücksetzen der Verteilung nach mehr oder weniger als 5 Dateien hat zu keiner Verbesserung geführt, so wie die Veränderung des Divisionsfaktors für die Histogrammbalkenwerte. Das verändern der Anzahl der Frames, ab denen ein Abschnitt als Pause klassifiziert werden soll, sowie der Frame-Anzahl ab der ein Sprachsegment anfängt, führten ebenfalls zu keiner Verbesserung des Resultats. Trotzdem bewegte sich die Wortakkuratheit im Bereich von 69,2 % bis 71,5 %, so daß immer noch das Ergebnis des Referenzexperiments übertroffen wird. So ist die höchste Wortakkuratheit bei den Experimenten mit der Basisversion der Merkmalsberechnung mit 72 %, die bei der Verwendung von einem Begren-zungskoeffizienten β von 0.25 und einer Mittelung der Eingangssignalspektren über 4 Frames. Das ergibt eine absolute Verbesserung der Wortakkuratheit um 3,7 % gegenüber dem Referenzexperiment, was eine relative Verbesserung der Wortfehlerrate von 11,7 % bedeutet. Da es eine Annahme gab, daß das Mittrainieren des charakteristischen Fahrzeug-geräusches, die Wirkung des Geräuschkompensationsalgorithmus dämpft, wurden Evaluationen mit einer veränderten Trainingskonfiguration durchgeführt, wo ein Fahrzeug vollständig aus der Trainingsmenge entfernt wurde und nur in der Teststichprobe vorkam. Sie ergaben eine Differenz für die Wortakkuratheit von 6 % und einer relativen Erniedrigung der Wortfehlerrate von 14,4 %. Somit wird das Ergebnis aus den Experimenten mit der standardmäßigen Trainings-konfiguration übertroffen und die Annahme in diesem Fall bestätigt.

Experiment Relative Änderung der WER GK mit Standard-

Trainingskonfiguration - 11,7 %

GK mit veränderter Trainingskonfiguration

- 14,4 %

Tabelle 5.4.2.4: Vergleich der relativen Änderung der Wortfehlerrate bei einem mit der Standard-Trainingskonfiguration und einem mit der veränderten Trainingskonfiguration trainiertem System, sowie der Verwendung der besten Konfiguration des Geräuschkompensationsalgorithmus zur Entstörung

Page 85: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

85

Erweiterte Merkmalsberechnung Der nächste Teil der Experimente wurde mit der erweiterten Merkmalsberech-nung durchgeführt, um die Auswirkungen des Geräuschkompensationsalgo-rithmus auch mit dieser Merkmalsart auswerten zu können. Weil diese Merkmale viel robuster gegen Störeinflüsse im Sprachkanal sind, da sie sich darauf adaptieren, waren die Erwartungen von vornherein nicht so hoch angesetzt. Das Referenzexperiment ergab eine Wortakkuratheit von 75,8 %. Die erweiterte Merkmalsberechnung wurde durch Verwendung der Basisversion und schritt-weisem Hinzufügen der einzelnen Erweiterungen, wie Präemphase, Histogramm-basierter Energieberechnung und Kanaladaption realisiert. Als erste Erweiterung, wurde die Anwendung einer Präemphase auf das Ein-gangssignal realisiert. Es gibt zwei Möglichkeiten sie durchzuführen. Zum einen, vor der Verarbeitung durch das Merkmalsberechnungsmodul, durch Verar-beitung der kompletten Signaldatei und zum anderen, eine Frame-weise durch-geführte Anwendung. Die erste Methode kann nicht im praktischen Einsatz im Fahrzeug durchgeführt werden, weil dort ein Datenstrom und keine einzelnen Signaldateien vorhanden sind. Als Ergebnis kam in diesem Fall eine Wortakku-ratheit von 73 % heraus. Bei der Frame-weisen Methode tritt das Problem von Sprüngen im Signalverlauf an den Frame-Grenzen auf. Eine anschließende Hamming-Fensterung vermindert das Problem, beseitigt aber solche Verzerrungen nicht vollständig. Es wurden die Optionen untersucht, die Präemphase vor oder nach der Spektralen Subtraktion durchzuführen. Im zweiten Fall müßte eine Rücktransformation in den Zeitbereich erfolgen, was aber keine nennenswerten Verluste bezüglich der Wortakkuratheit brachte. In der Methode, bei der die Signaldateien vorher komplett gefiltert werden, wirkt sich die Präemphase auch auf die Spektrale Subtraktion aus. So wurde im Vergleich dazu bei einer Frame-weisen Präemphase vor der Spektralen Subtraktion mit der erweiterten Energie-Berechnung, eine Wortakkuratheit von 72,3 % erzielt. Den gleichen Wert erhält man auch, wenn die Präemphase nach der Spektralen Subtraktion durchgeführt wird. Eine weitere Verbesserung brachte die Anwendung einer Kanaladaption auf die Merkmale. Ohne dateiübergreifende Parameterweiterleitung der Kanaladapti-onsparameter wurde eine Wortakkuratheit von 74,5 % und mit Weiterleitung

Page 86: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

86

75,8 %, was genau den Wert der Wortakkuratheit des Referenzexperimentes entspricht. An dieser Stelle wurden noch einige Parameter variiert, was aber zu keiner Verbesserung beitrug. Einzig das Training bis zur 16. Iteration, erzielte eine bessere Wortakkuratheit von 76,2 %, was aber auch beim Referenz-experiment erfolgt. Die Experimente mit der veränderten Trainingskonfiguration, bei der ein Fahr-zeug vollständig von der Trainingsmenge entfernt wurde, aber in der Teststich-probe vorhanden ist, zeigten daß die Wortakkuratheit mit Anwendung der Geräuschkompensation um etwa 2 % sinkt, was die Annahme, daß ein Mit-trainieren des charakteristischen Fahrzeuggeräusches die Auswirkung der Geräuschkompensation dämpft, in diesem Fall nicht bestätigt. So hat sich gezeigt, daß mit der Verwendung der erweiterten Merkmalsberech-nung keine Verbesserung der Wortakkuratheit mit dem Geräuschkompensations-algorithmus erzielen läßt. Positiv ist zumindest die Tatsache, daß es keine negativen Auswirkungen darauf hat. Somit läßt sich feststellen, daß die erweiterten Merkmale relativ robust gegenüber Störgeräuschen sind, was besonders auf die Kanaladaption, in Kombination mit der Präemphase, zurückzuführen ist. Durch die verschiedenen Experimente hat sich gezeigt, daß der implementierte Geräuschkompensationsalgorithmus zu einer signifikanten Verbesserung der Erkennungsleistung des Spracherkennungssystems führt und zwar um 11,7 % (bzw. 14,4 %) hinsichtlich der relativen Verminderung der Wortfehlerrate. Dies betrifft den Fall, in dem Standardmerkmale verwendet werden, womit das Ziel der Arbeit erreicht wurde. Weiterhin wurde noch untersucht, ob auch eine Verbesserung bei den erweiterten Merkmalen, die robuster gegenüber Störungen sind, erzielt werden kann. Das Ergebnis war keine Änderung, sowohl in positiver, als auch in negativer Richtung.

Experiment Basismerkmale Erweiterte Merkmale Referenz 68,3 % 75,8 %

GK mit bester Konfiguration

72 % 75,8 %

Tabelle 5.4.2.5: Vergleich der Änderung der Wortakkuratheit durch An-wendung des Geräuschkompensationsalgorithmus mit Basis- und erweiterten Merkmalen

Page 87: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

87

5.5 Ausblick Es können sicherlich noch Optimierungen an dem angewendeten Geräusch-kompensationsalgorithmus vorgenommen werden um vielleicht noch bessere Ergebnisse zu erzielen. Ein Punkt wäre z.B. die Übergabe der VAD-Parameter und eine robuste VAD-Histogramm-Verteilung während der Verarbeitung der ganzen Trainings-, bzw. Testmenge. In der Praxis würde dieses Problem aber nicht auftreten, weil dort keine einzelnen Dateien verarbeitet werden. Somit hätte man vielleicht etwas bessere Ergebnisse in der Praxis. Es könnten weiterhin noch mehr Kombinationen von Parameteränderungen untersucht werden, was aber wegen ihrer großen Anzahl im Zeitrahmen dieser Arbeit nicht möglich wäre. Die wichtigsten Kombinationen wurden aber vorgenommen und deren Resultate sind in der Tabelle im Anhang aufgelistet.

Page 88: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

88

Kapitel 6 Zusammenfassung Ziel dieser Arbeit war es, eine Erhöhung der Erkennungsleistung eines automa-tischen Spracherkennungssystems durch die Anwendung einer Geräusch-kompensation auf das Eingangssignal zu erzielen. Dazu wurde ein Sprach-erkennungssystem verwendet und erweitert, das für den Einsatz im Fahrzeug entwickelt wurde, aber keine Kompensation der auftretenden Störgeräusche durchführt. Die Erweiterung bestand darin, daß nicht nur die Eingangssignale für den Erkennungsprozess, sondern auch die Trainingsmenge für das Sprach-erkennungssystem mit dem Geräuschkompensationsverfahren entstört werden. Von den vielen und sehr unterschiedlichen Ansätzen zur Kompensation von Störgeräuschen in einem Sprachsignal wurde das Verfahren der Spektralen Subtraktion ausgewählt. Es gibt zwar effizientere Verfahren, wie z.B. mehrkanaligen Verfahren, die aber auf Grund ihrer erhöhten Hardware- und Installationsanforderungen an das Spracherkennungssystem für die beschränkte Domäne “Spracherkennung in Fahrzeugen“ ausscheiden. Andere Verfahren greifen tief in die akustische Modellierung oder in die Merkmalsberechnung ein, was gegen die Modularität und Portierbarkeit der Anwendung spricht. Die Spektrale Subtraktion ist ein gut untersuchtes und weit eingesetztes Verfahren, das relativ einfach und ohne Erweiterungen der Hardware bzw. des Sprach-erkennungssystems implementiert werden kann. Der Geräuschkompensationsalgorithmus ist modular aufgebaut und setzt vor der Merkmalsberechnung an. Weil die Sprachdaten für das Training des Spracher-kennungssystems unter Realbedingungen im Fahrzeug aufgenommen wurden und Störgeräusche enthalten, mußten sie auch vor dem Training mit dem implementierten Geräuschkompensationsalgorithmus entstört werden. Für die Durchführung der Spektralen Subtraktion mußte zusätzlich eine auto-matische Sprach-Pause-Detektion implementiert werden. Ihre Leistungsfähigkeit ist sehr wichtig, weil davon direkt die Effizienz des Geräuschkompensations-algorithmus abhängt. Eine falsche Klassifikation der Frames hat negative Auswirkungen auf die Erkennungsleistung des Spracherkennungssystems, weil

Page 89: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

89

dadurch starke Verzerrungen des Signals entstehen können. Obwohl mit abnehmenden Signal-Rausch-Abstand eine korrekte Sprach-Pausen-Detektion immer schwieriger wird, arbeitet der hier angewendete Algorithmus relativ stabil. Es wurde dafür ein energiebasierter Ansatz unter Verwendung eines Histogramms realisiert. Als Ausgabe wurden MFCC-Merkmale in zwei ver-schiedenen Versionen verwendet. Die Mehrheit der Experimente ist mit der Basisversion durchgeführt worden. Abschließend wurde eine erweiterte Merkmalsberechnung, die auch eine Kanaladaption beinhaltet, untersucht. Da eine Vielzahl von Parametern das Ergebnis beeinträchtigen können, wurden mehrere Experimente durchgeführt. Durch Variation und Kombinationen dieser Parameter, konnten die Auswirkungen auf die Erkennungsleistung einzeln untersucht werden. Als erstes wurden Experimente mit einem auf gestörten Sprachdaten trainierten Spracherkennungssystem durchgeführt. Diese Experimente dienten lediglich als Voruntersuchungen, da sie wegen der Stör-anteile in der Trainingsmenge schlechte Ergebnisse lieferten. Bei den übrigen Experimenten wurde jedesmal auch die Trainingsmenge mit dem Geräuschkompensationsalgorithmus entstört und das Spracherkennungs-system damit trainiert. Bei den Experimenten, in denen die Basisversion der Merkmalsberechnung eingesetzt wurde, ist eine relative Verminderung der Wortfehlerrate um 11,7 % erzielt worden, was eine signifikante Verbesserung der Erkennungsleistung des Spracherkennungssystems bedeutet. Da es die Vermutung gab, daß ein Mittrainieren der charakteristischen Fahrzeug-geräusche die Auswirkung der Geräuschkompensation dämpft, wurden auch Experimente mit einer veränderten Trainingskonfiguration durchgeführt, in der die Teststichprobe ausschließlich aus Sprachdaten bestand, die in einem Fahrzeug aufgenommen sind, das nicht im Training vorkam. In dieser Konfiguration konnte die Wortfehlerrate um 14,4 % im Vergleich zum ent-sprechendem Referenzexperiment gesenkt werden. Dieses Ergebnis zeigt, daß das Verfahren besonders für solche Fälle geeignet ist, in denen sich die Stör-geräusche der Trainings- und der Teststichprobe deutlich unterscheiden. Bei den Experimenten mit der erweiterten Merkmalsberechnung führte die Anwendung des Geräuschkompensationsalgorithmus weder zu einer Ver-besserung noch zu einer Verschlechterung des Ergebnisses. Bei den Experimenten mit der veränderten Trainingskonfiguration zeigte sich jedoch eine Verminderung der Wortakkuratheit. Diese Ergebnisse sind größtenteils auf die Kanaladaption in Kombination mit der Präemphase zurückzuführen, da sie schon relativ robuste Merkmale gegenüber Störgeräuschen erzeugt.

Page 90: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

90

Diese Arbeit hat also gezeigt, daß durch die Verwendung eines einkanaligen Geräuschkompensationsverfahrens, wie die Spektrale Subtraktion, eine Verbes-serung der Erkennungsleistung eines in gestörter Umgebung eingesetzten Spracherkennungssystems erzielt werden kann. Wie aus den Experimenten mit der erweiterten Merkmalsberechnung hervorgeht, kann jedoch die Wahl der Merkmalsart und zusätzlicher Verfahren die Wirkung der Geräusch-kompensation dämpfen oder sogar völlig aufheben.

Page 91: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

91

Literaturverzeichnis [DS96] V. Davidek, J. Sika, J. Stusak. Implementing a Noise

Cancellation System with the TMS320C31. ESIEE, 1996 [FK99] G. A. Fink. Developing HMM-based Recognizers with

ESMERALDA. Proceedings of the 2nd International Workshop on Text, Speech and Dialogue. Springer, Berlin 1999

[FM00] M. Fujimoto, J. Ogata, Y. Ariki. Large Vocabulary Continuous

Speech Recognition under Real Environments Using Adaptive Sub-Band Spectral Subtraction. ICSLP 2000

[GL93] M.J.F. Gales, S.J. Young. Cepstral Parameter Compensation

for HMM Recognition in Noise. Speech Communication Vol. 12, July 1993

[GL98] M.J.F. Gales. Predictive model-based Compensation Schemes

for Robust Speech Recognition. Speech Communication Vol. 25, August 1998

[HP00] H. Puder, F. Steffens. Improved Noise Reduction for Hands-

Free Car Phones Utilizing Information on Vehicle and Engine Speeds. EUSIPCO, 2000

[HP98] H. Puder, P. Dreiseitel. Speech Enhancement for Mobile

Telephony Based on Non-Uniformly Spaced Frequency Resolution. EUSIPCO, 1998

[HP99] H. Puder. Single Channel Noise Reduction Using Time-

Frequency Dependent Voice Activity Detection. IWAENC, 1999

[MS97] J. Meyer, K. U. Simmer. Multi-channel Speech Enhancement in

a Car Environment using Wiener Filtering and Spectral Subtraction. ICASSP 1997

Page 92: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

92

[PA97] J-B. Puel, R. André-Obrecht. Cellular Phone Speech Recognition : Noise Compensation vs. Robust Architectures. ESCA Eurospeech97, 1997

[PSK] P. Pollák, P. Sovka, Kybic J. Extendet Spectral Subtraction.

Research Report, CTU Faculty of Electrical Engineering, Prague.

[PSU] P. Pollák, P. Sovka, Uhlir J. Noise Suppression System for a

Car. Research Report, CTU Faculty of Electrical Engineering, Prague.

[SM96] K. U. Simmer, S. Fischer, K. D. Kammeyer. Adaptive

Microphone Arrays for Speech Enhancement in Coherent and Incoherent Noise Fields. 3rd joint meeting of the Acoustical Society of America and the Acoustical Society of Japan, Dec 1996

[ST95] E. G. Schukat-Talamazzini. Automatische Spracherkennung.

Vieweg, Braunschweig/Wiesbaden, 1995 [VG96] S. V. Vaseghi. Advanced Signal Processing and Digital Noise

Reduction. Wiley-Teubner, 1996 [VM97] S. V. Vaseghi, B. P. Milner. Noise Compensation Methods for

Hidden Markov Model Speech Recognition in Adverse Environments. IEEE Transactions on Speech and Audio Processing, Vol. 5, No. 1, January 1997

[VR98] P. Vary, U. Heute, W. Hess. Digitale

Sprachsignalverarbeitung. Teubner 1998 [WS97] M. Westphal. The Use of Cepstral Means in Conversational

Speech Recognition. Proc. European Conf. On Speech Communication and Technology, Vol. 3, 1997

[YH95] R. Yang, P. Haavisto. Noise Compensation for Speech

Recognition in Car Noise Environments. ICASSP 1995

Page 93: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

93

Abkürzungsverzeichnis ADC Analog-Digital Converter (Analog-Digital-Wandler) DCT Discrete Cosinus Transformation DFT Diskrete Fourier Transformation ESMERALDA Environment for Statistical Model Estimation and

Recognition on Arbitary Linear Data Arrays FFT Fast Fourier Transformation FIFO First-In First-Out HMM Hidden Markov Models LDS Leistungsdichtespektrum LPC Linear Prediction Coding (Lineare Vorhersage) MFCC Mel-Frequency Cepstral Coefficients PCM Pulse Code Modulation PMC Parallel Model Combination SLACC Spoken Language Car Control SNR Signal Noise Ratio (Signal-Rausch-Abstand) VAD Voice Activity Detection (Sprach-Pause-Detektion) WA Word Accuracy (Wortakkuratheit) WC Words Correct WER Word Error Rate (Wortfehlerrate)

Page 94: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

94

Anhang Die wichtigsten Experimente und ihre Ergebnisse. Alle Angaben in %. Experimente mit unentstörter Trainingsmenge und Basismerkmalen Experiment WA Toleranz +/- WC S D I

Mit unentstörter Trainingsmenge aus Nahbesprechungsmikrofon, Sub-Band, Segmentierungsdateien und festes hohes α 1

9.02 1.0 55.02 40.61 4.36 46.0 Gesamtenergie, Segmentierungsdateien und festes hohes α 2

9.11 1.0 53.92 41.71 4.36 44.82 Sub-Band, veränderten Segmentierungsdateien und festes hohes α 3

16.99 1.0 59.71 39.10 1.18 42.73 Sub-Band, veränderten Segmentierungsdateien und festes niedriges α 4

52.33 1.0 64.08 31.84 4.09 11.75 Sub-Band, VAD (basis) und automatischen α 5

14.02 1.0 57.53 41.15 1.32 43.51 Experimente mit entstörter Trainingsmenge und Basismerkmalen Experiment WA Toleranz +/- WC S D I

Referenzexperiment mit unentstörter Trainingsmenge aus entferten Mikrofon, ohne Geräuschkompensation, Basismerkmale 1

68.31 0.9 75.26 21.26 3.48 6.95 Basisexperiment: Sub-Band, VAD, max. α = 2.2 , keine Glättungen, niedriges β = 0.01, Abklingfaktor = 0.35 2

53.48 1.0 57.74 33.23 9.03 4.26 Basisexperiment mit zusätzlicher Musical-Tones-Reduktion 3

30.60 1.0 33.03 46.65 20.32 2.43

Page 95: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

95

Experiment WA Toleranz +/- WC S D I

Basisexperiment mit veränderter SNR-Berechnung 4 48.88 1.0 52.32 37.14 10.54 3.44

Basisexperiment mit Gesamtenergie 5 58.66 1.0 63.15 29.76 7.10 4.49

Basisexperiment mit Gesamtenergie und kein Abklingen 6 63.39 0.9 67.91 26.28 5.81 4.52

Basisexperiment mit Glättung der Ausgangsspektren, Glättungsfaktor ρ = 0.8 7

58.38 1.0 63.10 30.34 6.86 4.72 Basisexperiment mit Glättung der Übertragungsfunktion H( f ), Glättungsfaktor ρ = 0.8 8

54.28 1.0 58.61 32.90 8.48 4.33 Basisexperiment mit Glättung der Störgeräuschspektren, Glättungs-faktor ρ = 0.75 9

53.89 1.0 57.68 33.09 9.22 3.79 Basisexperiment mit Mittelung der Eingangsspektren über 4 Frames 10

58.75 1.0 64.80 29.15 6.04 6.05 Basisexperiment mit max. α = 2.51 11

52.98 1.0 56.93 33.69 9.38 3.95 Basisexperiment mit Abklingfaktor = 0.2 12

51.35 1.0 56.32 34.66 9.02 4.26 Basisexperiment mit Abklingfaktor = 0.5 13

55.87 1.0 59.66 31.57 8.77 3.79 Basisexperiment ohne Abklingen 14

59.73 1.0 64.58 28.33 7.09 4.85 Basisexperiment mit hohem β = 0.25 und kein Abklingen 15

71.80 0.8 77.50 19.27 3.23 5.70 Basisexperiment mit β = 0.5 und kein Abklingen 16

69.73 0.9 76.31 20.63 3.06 6.58 Basisexperiment mit β = 0.35 und Abklingfaktor = 0.35 17

71.57 0.8 76.90 19.67 3.43 5.32 Basisexperiment mit β = 0.35 und kein Abklingen 18

70.80 0.8 77.15 19.87 2.98 6.35 Basisexperiment mit β = 0.15 und Abklingfaktor = 0.35 19

69.50 0.9 74.44 21.61 3.95 4.93

Page 96: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

96

Experiment WA Toleranz +/- WC S D I

Basisexperiment mit β = 0.25, kein Abklingen und Gesamtenergie 20 69.97 0.9 76.18 20.46 3.36 6.21

Basisexperiment mit β = 0.25, kein Abklingen und Glättung der Ausgangsspektren, Glättungsfaktor ρ = 0.8 21

70.97 0.8 77.79 19.32 2.89 6.81 Bestes Experiment: Basisexperiment mit β = 0.25, kein Abklingen und Mittelung der Eingangsspektren über 4 Frames 22

72.00 0.8 78.20 19.13 2.67 6.20 Bestes Experiment und β = 0.3 23

70.92 0.8 77.36 19.68 2.96 6.44 Bestes Experiment und β = 0.2 24

70.75 0.8 76.99 20.09 2.92 6.24 Bestes Experiment und Glättung der Ausgangsspektren, Glättungs-faktor ρ = 0.85 25

70.77 0.8 77.72 19.69 2.59 6.95 Bestes Experiment und Abklingfaktor = 0.35 26

71.32 0.8 77.34 19.77 2.88 6.02 Bestes Experiment und Mittelung der Eingangsspektren über 3 Frames 27

71.30 0.8 77.81 19.35 2.84 6.51 Bestes Experiment und max. α = 2 28

70.75 0.8 77.26 19.92 2.82 6.51 Bestes Experiment und max. α = 2.51 29

70.27 0.8 76.76 20.15 3.08 6.50 Bestes Experiment und Mittelung der Eingangsspektren über 5 Frames 30

69.54 0.9 76.04 20.89 3.06 6.51 Bestes Experiment und β = 0.15 in Pausen und β = 0.25 in Sprach-segmenten 31

70.21 0.8 77.08 19.88 3.04 6.87 Bestes Experiment und frequenzabhängiges β [0.25 … 0.20] 32

70.55 0.8 76.97 19.90 3.13 6.42 Bestes Experiment und veränderte Geräuschschätzung 33

69.63 0.9 75.50 20.98 3.52 5.87 Bestes Experiment und Verwendung von LDS 34

63.83 0.9 71.11 24.62 4.27 7.28

Page 97: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

97

Experiment WA Toleranz +/- WC S D I

Bestes Experiment und veränderte Energieberechnung 35 71.48 0.8 76.79 20.01 3.20 5.31

Bestes Experiment und Rücksetzung der VAD-Verteilung nach 10 Dateien (anstatt 5) 36

71.35 0.8 77.82 19.33 2.85 6.46 Bestes Experiment und Rücksetzung der VAD-Verteilung nach 3 Dateien (anstatt 5) 37

70.07 0.8 76.58 20.69 2.73 6.51 Bestes Experiment und Rücksetzung der VAD-Verteilung mit Divisionsfaktor = 5 (anstatt 10) 38

70.13 0.8 76.69 20.21 3.11 6.56 Bestes Experiment und Rücksetzung der VAD-Verteilung mit Divisionsfaktor = 20 (anstatt 10) 39

70.40 0.8 76.91 19.95 3.14 6.51 Bestes Experiment und Berücksichtigung von Pausen ab 10 Frames Länge (anstatt 15) 40

71.32 0.8 77.46 19.38 3.16 6.14 Bestes Experiment und Berücksichtigung von Pausen ab 20 Frames Länge (anstatt 15) 41

70.99 0.8 77.17 19.73 3.09 6.18 Bestes Experiment und Sprachsegmentanfang mit 4 Frames (anstatt 5 Frames) 42

70.43 0.8 76.75 20.53 2.71 6.32 Bestes Experiment und Sprachsegmentanfang mit 10 Frames (anstatt 5 Frames) 43

69.16 0.9 75.74 21.06 3.20 6.52 Bestes Experiment und SNR-Schwellwert für VAD = 10 (anstatt 15) 44

70.14 0.8 76.74 20.20 3.06 6.60 Bestes Experiment und SNR-Schwellwert für VAD = 20 (anstatt 15) 45

70.88 0.8 77.13 20.11 2.76 6.25 Referenzexperiment mit veränderter Trainingskonfiguration 46

58.73 1.2 70.55 26.81 2.63 11.83 Bestes Experiment und veränderte Trainingskonfiguration 47

64.67 1.2 73.61 23.74 2.65 8.94

Page 98: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

98

Experimente mit entstörter Trainingsmenge und erweiterten Merkmalen Experiment WA Toleranz +/- WC S D I

Referenzexperiment mit unentstörter Trainingsmenge aus entferten Mikrofon, ohne Geräuschkompensation, erweiterte Merkmale

1

75.80 0.8 80.26 16.82 2.93 4.46 Referenzexperiment mit unentstörter Trainingsmenge aus entferten Mikrofon, ohne Geräuschkompensation, Basismerkmale bis auf Energie, da Histogramm-basiert

2

69.62 0.9 75.56 21.13 3.32 5.94 Referenzexperiment mit unentstörter Trainingsmenge aus entferten Mikrofon, ohne Geräuschkompensation, erweiterte Merkmale und veränderter Trainingskonfiguration

3

70.88 1.1 77.44 19.82 2.74 6.56 Bestes Experiment aus vorheriger Tabelle und Präemphase ganzer Dateien vor der Geräuschkompensation 4

72.96 0.8 79.21 18.28 2.50 6.25 Bestes Experiment aus vorheriger Tabelle, Energie-Histogramm und ohne Hamming-Fensterung in Mermalsberechnung 5

70.79 0.8 76.65 20.31 3.04 5.85 Bestes Experiment aus vorheriger Tabelle, Energie-Histogramm und mit Hamming-Fensterung in Mermalsberechnung 6

71.29 0.8 77.18 20.09 2.73 5.89 Bestes Experiment aus vorheriger Tabelle, Energie-Histogramm und ohne Hamming-Fensterung in Mermalsberechnung und vor der Geräuschkompensation

7

69.26 0.9 76.76 20.44 2.80 7.50 Bestes Experiment aus vorheriger Tabelle und Frame-weise Präemphase in der Merkmalsberechnung 8

72.28 0.8 78.44 19.26 2.30 6.16 Bestes Experiment aus vorheriger Tabelle und Frame-weise Präemphase vor der Geräuschkompensation 9

72.30 0.8 78.18 19.10 2.73 5.87 Bestes Experiment aus vorheriger Tabelle, Frame-weise Präemphase in der Merkmalsberechnung und niedrigem β = 0.01 10

65.56 0.9 72.37 23.71 3.92 6.80

Page 99: Geräuschunterdrückung für Spracherkennungssysteme im Fahrzeug · 2 Versicherung Hiermit versichere ich, daß ich die vorliegende Diplomarbeit selbständig er- arbeitet und keine

99

Experiment WA Toleranz +/- WC S D I Bestes Experiment aus vorheriger Tabelle, Frame-weise Präemphase in der Merkmalsberechnung und Kanaladaption ohne Parameterweiterleitung

11

74.52 0.8 80.03 17.65 2.32 5.50 Aktuell bestes Experiment: Bestes Experiment aus vorheriger Tabelle, Frame-weise Präemphase in der Merkmalsberechnung und Kanaladaption mit Parameterweiterleitung

12

75.80 0.8 80.86 16.62 2.52 5.06 Aktuell bestes Experiment und Training bis zur 16. Iteration (anstatt 11. Iteration) 13

76.19 0.8 81.13 16.45 2.42 4.94 Aktuell bestes Experiment und β = 0.27 14

73.73 0.8 79.37 18.03 2.60 5.64 Aktuell bestes Experiment und β = 0.23 15

75.30 0.8 80.55 16.78 2.66 5.25 Aktuell bestes Experiment und veränderte Trainingskonfiguration 16

68.63 1.1 76.37 21.00 2.63 7.74