14
Abteilung Signalverarbeitung (Fingscheidt) 1. Forschungsfelder der Abteilung Die Abteilung Signalverarbeitung arbeitet in den drei Forschungsfeldern Sprachverbesserung, Sprachverarbeitung, Mustererkennung/Deep Learning. Im Bereich der Sprachverbesserung erforschen wir Verfahren zur Stör- geräuschreduktion, akustischen Echokompensation, künstlichen Sprach- Bandbreitenerweiterung und In-Car-Kommunikationssysteme sowie Qua- litätsmessverfahren zu allen vorgenannten Feldern. Weitere Themen sind Beamforming sowie höherqualitative, aber standardkonforme Sprach- und Au- diodecoder. Forschungsthemen zur Sprachverarbeitung bzw. Mustererkennung sind die Emotionserkennung, die Blickrichtungsdetektion, die automatische Spracherkennung und Sensorfusion, aber auch die Handschrifterkennung. Die Anwendungsbereiche reichen von der Fahrzeug- und Office-Kommunikation über Hörgeräte, Überwachungs- bzw. Produktionstechnologien und Freisprech- systeme bis hin zur Mobiltelefonie und zu Gateways. 2. Projekte Aus dem Förderprogramm Zentrales Innovationsprogramm Mittelstand (ZIM) des Bundesministeriums für Wirtschaft und Technologie wurde im Berichtszeit- raum das Projekt „Car in a Box“ zu einem erfolgreichen Abschluss geführt. Das übergeordnete Projektziel mit der Firma HEAD acoustics GmbH in Herzogen- rath war die Entwicklung eines Gerätes, das Wissenschaftler und Entwickler von automotiven Sprachtechnologien bei ihrer Arbeit unterstützt, indem es stati- sche und dynamische akustische Situationen im Fahrzeug in Echtzeit simuliert. Der Beitrag des IfN bestand im Wesentlichen in der statischen und dynamischen Komplettsimulation der Akustik in Fahrzeugkabinen. Ebenfalls erfolgreich abgeschlossen wurde eine Zusammenarbeit mit der Inno- vationsgesellschaft der TU Braunschweig (iTUBS) GmbH mit dem Ziel, Verfah- ren der künstlichen Sprach-Bandbreitenerweiterung für die serverbasierte An- wendung in Telekonferenzsystemen weiterzuentwickeln. Besondere Herausfor- derung waren hierbei die in der Praxis sehr unterschiedlichen Szenarien wie close talk oder hands-free mit entsprechenden Unterschieden im Spektrum, wie auch die sehr unterschiedlichen oberen Grenzfrequenzen in der realen Sprach- übertragung. Weitergeführt wurde das ZIM-Projekt „Technologien zur Texterkennung aus handschriftlichem Fließtext“ mit der Firma ITU Consult GmbH in Leh- re/Wendhausen bei Braunschweig. Im Projekt wurde bisher ein Ziffern- und 52

Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Embed Size (px)

Citation preview

Page 1: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Abteilung Signalverarbeitung (Fingscheidt)

1. Forschungsfelder der Abteilung

Die Abteilung Signalverarbeitung arbeitet in den drei ForschungsfeldernSprachverbesserung, Sprachverarbeitung, Mustererkennung/Deep Learning.

Im Bereich der Sprachverbesserung erforschen wir Verfahren zur Stör-geräuschreduktion, akustischen Echokompensation, künstlichen Sprach-Bandbreitenerweiterung und In-Car-Kommunikationssysteme sowie Qua-litätsmessverfahren zu allen vorgenannten Feldern. Weitere Themen sindBeamforming sowie höherqualitative, aber standardkonforme Sprach- und Au-diodecoder. Forschungsthemen zur Sprachverarbeitung bzw. Mustererkennungsind die Emotionserkennung, die Blickrichtungsdetektion, die automatischeSpracherkennung und Sensorfusion, aber auch die Handschrifterkennung. DieAnwendungsbereiche reichen von der Fahrzeug- und Office-Kommunikationüber Hörgeräte, Überwachungs- bzw. Produktionstechnologien und Freisprech-systeme bis hin zur Mobiltelefonie und zu Gateways.

2. Projekte

Aus dem Förderprogramm Zentrales Innovationsprogramm Mittelstand (ZIM)des Bundesministeriums für Wirtschaft und Technologie wurde im Berichtszeit-raum das Projekt „Car in a Box“ zu einem erfolgreichen Abschluss geführt. Dasübergeordnete Projektziel mit der Firma HEAD acoustics GmbH in Herzogen-rath war die Entwicklung eines Gerätes, das Wissenschaftler und Entwicklervon automotiven Sprachtechnologien bei ihrer Arbeit unterstützt, indem es stati-sche und dynamische akustische Situationen im Fahrzeug in Echtzeit simuliert.Der Beitrag des IfN bestand im Wesentlichen in der statischen und dynamischenKomplettsimulation der Akustik in Fahrzeugkabinen.

Ebenfalls erfolgreich abgeschlossen wurde eine Zusammenarbeit mit der Inno-vationsgesellschaft der TU Braunschweig (iTUBS) GmbH mit dem Ziel, Verfah-ren der künstlichen Sprach-Bandbreitenerweiterung für die serverbasierte An-wendung in Telekonferenzsystemen weiterzuentwickeln. Besondere Herausfor-derung waren hierbei die in der Praxis sehr unterschiedlichen Szenarien wieclose talk oder hands-free mit entsprechenden Unterschieden im Spektrum, wieauch die sehr unterschiedlichen oberen Grenzfrequenzen in der realen Sprach-übertragung.

Weitergeführt wurde das ZIM-Projekt „Technologien zur Texterkennung aushandschriftlichem Fließtext“ mit der Firma ITU Consult GmbH in Leh-re/Wendhausen bei Braunschweig. Im Projekt wurde bisher ein Ziffern- und

52

Page 2: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Blockschrifterkenner zur Erkennung von Handschrift in Formularen entwickelt,der im weiteren auch frei geschriebene Handschrift verarbeiten soll.

Mit der R&D-Gruppe in Leuven, Belgien, der Firma NXP Software B.V. wur-den im Berichtszeitraum die Forschungsarbeiten zur modellbasierten Störge-räuschreduktion für Mobiltelefone in ein drittes Projektjahr in Folge weiterge-führt. Der Fokus lag bisher auf Verfahren zur sog. A-priori-Signal-zu-Rausch-Leistungsschätzung, wobei eine neuartige cepstrale Verarbeitung u. a. zur Be-wahrung der Harmonischen des Sprachsignals entwickelt wurde. Dies wurdeeingebettet in eine Hidden-Markov-Modell(HMM)-Schätzung des Sprachspek-trums. Der aktuelle Fokus des Vorhabens liegt auf der Einführung von Methodendes Deep Learning in die Sprachverbesserung.

Wir freuen uns über die Zuerkennung einer zweijährigen Förderung für das ZIM-Projekt „Voice Analytics Suite“ mit der Firma viasto GmbH in Berlin. Ziel ist hierdie Entwicklung eines selbstlernenden Expertensystems zur objektiven Bewer-tung von zeitversetzten Jobinterviews. Unser Beitrag wird u. a. ein akustischerKeywordspotter sein.

Eine vom China Scholarship Council (CSC) unterstützte Forschungsarbeit zurniedrigratigen Sprachübertragung mittels neuartiger Skalar- und Vektorquanti-sierer wurde begonnen. Die Verfahren sollen standardkompatibel in AudiocodecsVerwendung finden können, aber auch in neuen akustischen Sensornetzen zurSprach- oder Audioübertragung einsetzbar sein.

Schließlich ist das Institut für Nachrichtentechnik beteiligt an der erfolgrei-chen Einwerbung des vom Niedersächsischen Ministerium für Wissenschaft undKultur geförderten dreijährigen Promotionsprogramms „Konfigurationen vonMensch, Maschine und Geschlecht – Interdisziplinäre Analysen zur Technikent-wicklung“, kurz „komma.G“. In einem Konsortium aus Technischer UniversitätBraunschweig, HBK und Ostfalia Hochschule betreut Prof. Fingscheidt in die-sem Verbund aus 15 Professorinnen und Professoren sowie vier Assoziierten dasThema der automatischen Sprachanalyse von Team-Meetings. Der Start der Ar-beiten ist für Anfang 2017 angesetzt.

3. Mitarbeiterinnen und Mitarbeiter der Abteilung

Im Berichtszeitraum begrüßten wir am 1. April als neuen Mitarbeiter im Be-reich Sprachverbesserung Herrn Jan Franzen, der die Forschung an In-Car-Kommunikationssystemen vorantreiben wird.

Im Bereich der Sprachverbesserung forschen darüber hinaus die Herren Abel,Elshamy, Jung (bis 30. Juni 2016) und Meyer. In der Sprachverarbeitung undMustererkennung arbeiten Frau Han (bis 30. April 2016), die Herren Lohrenz,

53

Page 3: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Meyer, Pantke, Receveur und Zhao. Darüber hinaus war Herr Kolossa zum The-ma Bayesian Brain und Elektroenzephalographie (EEG) bei uns bis zum 31. Ja-nuar 2016 tätig. Damit arbeiten zum Ende des Berichtszeitraums in der Abtei-lung Signalverarbeitung neben Prof. Fingscheidt und weiterhin Frau Erichsen-Rua acht Wissenschaftlerinnen und Wissenschaftler mit.

Im Juli und August 2016 kam unser langjährig bekannter GastwissenschaftlerDr. Saeed Mozaffari aus dem Iran zu Besuch in die Abteilung Signalverarbei-tung, um erste Arbeiten im Bereich Bildsegmentierung mittels Deep Learningdurchzuführen.

Im Berichtszeitraum haben bei uns vier Studierende eine Masterarbeit abge-schlossen. Weiterhin hat uns noch eine Vielzahl studentischer Hilfskräfte unter-stützt.

Im Wintersemester 2015/2016 hat die Abteilung Signalverarbeitung erstma-lig eine völlig neu gestaltete Lehrveranstaltung Mustererkennung angeboten.Nachdem Dr. Märgner langjährig dieses Lehrgebiet vertreten hatte, setzt Prof.Fingscheidt nun Schwerpunkte auf Support-Vektor-Maschinen (SVM) und neu-ronale Netze, bis hin zu Methoden des Deep Learning. Die Lehrveranstaltung istoffen für eine Vielzahl von Fachrichtungen.

4. Sprachverbesserung

4.1 Künstliche Sprach-Bandbreitenerweiterung (ABE), Qualitätsmaße

und Deep Learning

Im Nachgang einer zunächst zweijährigen Zusammenarbeit mit der R&D-Gruppe in Leuven, Belgien, der Firma NXP Software B.V. zum Thema derSprachqualitätsmaße für künstlich bandbreitenerweiterte Sprachsignale (engl.artificial bandwidth extension, ABE) hat Herr Abel das entwickelte Qualitäts-maß in einem umfangreichen Trainings- und Testsetup neu validiert. Basierendauf dem im letzten Institutsbericht vorgestellten subjektiven Hörtest wurde dasinstrumentelle Maß neu trainiert und evaluiert. Das Setup und die Ergebnissedieses in 4 Sprachen durchgeführten Hörtests wurden auf der ICASSP 2016 inShanghai, China, publiziert [ABE/FIN1]. Hierzu wurden die verfügbaren Datenin drei Cross-Validierungsexperimenten auf unterschiedlichste Art und Weisein nicht überlappende Datenmengen für das Training und die Evaluation desinstrumentellen Maßes aufgeteilt. Zunächst wurde die Fähigkeit des instrumen-tellen Maßes zur Generalisierung hinsichtlich Sprachen getestet, die nicht imTraining vorkamen. Für die Sprachen Englisch, Deutsch und Koreanisch konn-ten hervorragende Korrelations- und RMSE-Werte erzielt werden, die Ergebnis-se für Chinesisch waren weniger gut. In einem weiteren Experiment wurde dieSprecherabhängigkeit evaluiert. Auch hier wurden durchweg exzellente Ergeb-

54

Page 4: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

nisse erzielt. In dem dritten Experiment, welches einen Teil der ABE-Variantenim Training auslässt, konnte das vorgeschlagene instrumentelle Maß schließ-lich ebenso überzeugen. Dieses letzte Experiment ist als das bedeutendste Ex-periment anzusehen, da es den späteren Anwendungsfall simuliert: Die Sprach-qualität eines ABE-Verfahrens soll bestimmt werden, wobei das ABE-Verfahrennicht zur Erstellung der Trainingsdaten genutzt werden durfte. Zusammenfas-send konnte sich das vorgeschlagene Maß im Mittel in allen drei Experimen-ten beweisen – mit Korrelationswerten zu subjektiven Testergebnissen von 0,92oder höher. Das Verfahren wurde in einem Manuskript beschrieben und zu denIEEE/ACM Transactions on Audio, Speech, and Language Processing einge-reicht und in Auszügen auf der ITG-Fachtagung Sprachkommunikation in Pa-derborn präsentiert [ABE/FIN4].

Neue instrumentelle Sprachqualitätsmaße sollten sich jedoch nicht nur über ho-he Korrelationen mit subjektiv erhobenen Daten beweisen. Hierzu haben HerrAbel und Herr Kolossa eine gemeinsame Studie durchgeführt, in der unter-sucht wurde, welches der instrumentellen Maße WB-PESQ (Wideband Percep-tual Speech Quality) oder POLQA (Evaluation of Perceptual Objective ListeningQuality Assessment) das menschliche Sprachqualitätsempfinden für künstlichbandbreitenerweiterte Sprache besser abbildet. Wird lediglich die Korrelationals Metrik herangezogen, so ist eine Unterscheidung kaum möglich (WB-PESQ:0.90 vs. POLQA: 0.89). Weiterhin ist es aufgrund der Ähnlichkeit der Korrelati-onswerte nicht möglich, eine statistisch signifikante Aussage über den qualitati-ven Abstand der beiden Systeme zu treffen. Aus diesem Grund wurde in dieserUntersuchung das Verfahren der Bayesian Model Selection (BMS) genutzt, umdie beiden Maße zu vergleichen. Die Analyse mittels BMS ergab mit starker Si-gnifikanz, dass WB-PESQ den Menschen hinsichtlich seiner Einschätzung derSprachqualität besser reflektiert als POLQA. Die Studie ist auf der ICASSP inShanghai publiziert worden [ABE/FIN2].

Mit der Innovationsgesellschaft der TU Braunschweig (iTUBS) mbH hat HerrMeyer über einen Zeitraum von sechs Monaten an einem Forschungsprojektgearbeitet, dessen Ziel die Verbesserung der Sprachqualität der künstlichenSprach-Bandbreitenerweiterung insbesondere für Sprachsignale in Telekonfe-renzsystemen ist. Die Herausforderung bestand dabei in einer geeigneten Verar-beitung unterschiedlichster beteiligter Signalqualitäten. So hatten Signale ausFreisprechsituationen aufgrund der Verhallung häufig keinen oder nur einen ge-ringen Effekt durch Verwendung der ABE gezeigt. Dieses und auch andere ur-sprüngliche Probleme der ABE konnten mittels geeigneter algorithmischer Er-gänzungen von Herrn Meyer gelöst werden [MEY/FIN2].

Deep Learning ist in aller Munde und ist im Berichtszeitraum auch massiv inder Abteilung für Signalverarbeitung eingezogen: Da man für die aufwändigenTrainingsprozesse Grafikprozessoren (GPUs) benötigt, wurde unter Koordinati-

55

Page 5: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

on von Herrn Elshamy ein erstes Set an NVIDIA-Grafikkarten angeschafft. Prof.Fingscheidt bot die neue Vorlesung „Mustererkennung“an, die Themen wie De-ep Learning jetzt erstmalig umfasst. In der Forschung dagegen war Herr Abelvorneweg und hat im Rahmen der Betreuung der Masterarbeit [MA 16/022]von Herrn Strake unterschiedliche Wege zum Einsatz tiefer neuronaler Net-ze (engl. deep neural networks, DNNs) am Beispiel der künstlichen Sprach-Bandbreitenerweiterung untersucht. Ein besonderer Fokus dieser Arbeit lagzum einen auf der Evaluierung verschiedener Topologien und zum anderen aufden Eingängen der DNNs. Zu Letzteren gehören verschiedene Merkmalsdar-stellungen, aber auch die Bildung sogenannter Tapped Delay Chains, um denzeitlichen Kontext im DNN-Eingang zu erhöhen. Weiterhin wurden rekursiveneuronale Netze untersucht, genauer Long-Short-Term-Memory(LSTM)-Netze.Grundsätzliche Erkenntnisse dieser Arbeit sind: (1) DNNs sind für akustischeModelle besser geeignet als Gaußsche Mischverteilungen; (2) im DNN ist dieAnzahl der verborgenen Schichten wichtiger als die Anzahl der Neuronen proSchicht; (3) die direkte Schätzung der Parameterdarstellung des oberen Bands(DNN als Regressor) liefert eine bessere Sprachqualität (gemessen mittels WB-PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNNals Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte sind zurück-zuführen auf eine verbesserte Energieschätzung des fehlenden Bands. HerrnAbels und Herrn Strakes Ergebnisse zu verschiedenen DNN-Topologien ohneÄnderung des Merkmalsvektors wurden im September auf dem InternationalWorkshop on Acoustic Signal Enhancement (IWAENC) in Xi’an, China, vorge-stellt [ABE/FIN3].

4.2 Sprachverbesserung im Kfz

Moderne Telekommunikation nimmt einen zunehmend größeren Teil in unseremalltäglichen Leben ein. Dabei spielt unter anderem die Freisprechtelefonie ausGründen des Komforts, im Fahrzeug jedoch auch unter Sicherheitsaspekten, einewichtige Rolle. Daher hat Herr Jung in seinem Dissertationsvorhaben “Contribu-tions to Wideband Hands-free Systems and their Evaluation” breitbandfähige2

Freisprechsysteme für monophone und stereophone Anwendungsfälle weiterent-wickelt und Beiträge zur Qualitätsmessung solcher Sprachverbesserungsalgo-rithmen geliefert. Der Inhalt dieser Arbeit basiert dabei auf im Frequenzbereichadaptierenden Algorithmen zur Systemidentifikation gemäß Kalman-Theorie.Des Weiteren wurde eine Methodensammlung und daraus folgend ein techni-sches Framework zur verbesserten Prototypenentwicklung und Evaluation vonautomotiven Freisprech-, In-Car-Kommunikations- und Telekonferenzsystemenvorgestellt und mit dem oben genannten monophonen Freisprechsystem zur An-wendung gebracht. Da bei der Entwicklung von Systemen zur Sprachsignalver-besserung darauf geachtet werden muss, verschiedene einander widerstrebende

2Allgemein bezeichnet “Breitband” bei Sprachsignalen den Frequenzbereich von 50Hz bis 7 kHz.

56

Page 6: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Abbildung 5: Einbindung der „Car in a Box“ im Messaufbau

Qualitätsanforderungen gleichzeitig zu erfüllen (z. B. starke Unterdrückung vonStörungen bei gleichzeitiger Erhaltung der Nutzsignalkomponente), wurden indieser Arbeit funktionale Erweiterungsmodule dahingehend entwickelt, dass ei-ne oder mehrere dieser Qualitätsanforderungen verbessert erfüllt werden konn-ten, ohne andere zu verletzen. Somit können je nach Anforderung eine Vielzahldieser Module ohne starke Nebeneffekte kombiniert werden. Diese algorithmi-schen Kombinationen wurden mittels international anerkannter Teststandardsdes Standardisierungssektors der International Telecommunication Union (ITU-T Rec. P.1110/P.1130) in automotiven Testszenarien getestet und somit derenzielgerichtete Wirksamkeit bestätigt.

Bestehende Tests zum zeitdynamischen Verhalten von Freisprechsystemen zeig-ten bisher nur ein unzureichendes Maß an Flexibilität, Reproduzierbarkeit undGenauigkeit. Diese Thematik wurde im Rahmen des im Berichtszeitraum ab-geschlossenen ZIM-Projekts “Car in a Box” [JUN/FIN1] aufgegriffen und imoben genannten Dissertationsvorhaben weiterentwickelt. Dabei ging es darum,zeitvariante elektro-akustische Phänomene, wie zum Beispiel das Öffnen desFahrzeugfensters während der Freisprechtelefonie, technisch zu identifizieren,so dass die gewonnenen sogenannten dynamischen Impulsantworten diese Phä-nomene auf realistische Weise darzustellen vermögen. Daraufhin können dieseImpulsantworten im Labor in einer Syntheseoperation auf beliebige Sprachsi-gnale angewandt werden, um Testsignale zu dynamischen Testbedingungen zuerzeugen. Der große Vorteil bei einem solchen Vorgehen ist, dass ein hohes Maßan Flexibilität bei absoluter Reproduzierbarkeit erlangt werden kann. Die Ge-nauigkeit von darauf basierenden Evaluationsverfahren kann zudem deutlichgesteigert werden, da mit dem Vorliegen von exakten, realen Impulsantwor-ten zu jedem Zeitpunkt der Messung eine sogenannte „ground truth“ als Refe-

57

Page 7: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Abbildung 6: A2B-Hardware-Komponenten des neuen ICC-Systems

renz zur Verfügung steht, welche unter regulären Bedingungen nicht verfügbarwäre. Abbildung 5 zeigt hierbei die Einbindung des “Car in a Box”-Geräts ineinen Messaufbau für automotive Freisprechsysteme („Prüfling“). Dabei ist be-deutsam, dass das eigentliche Fahrzeug, das ohnehin im Entwicklungszeitraumneuartiger OEM-Freisprechsysteme (OEM: original equipment manufacturer)oft nur als Prototyp existiert und somit nur in geringer Stückzahl, und daherkostspielig, zur Verfügung steht, nicht mehr benötigt wird; es wird vollständigdurch das “Car in a Box”-Gerät ersetzt.

Auch die von Herrn Elshamy betreuten Arbeiten zur robusten Spracherkennungim Fahrzeug wurden wieder einen Schritt weiter vorangetrieben. Im Rahmen ei-ner Masterarbeit [MA 16/012] wurde ein bereits vorhandener Algorithmus zurzweikanaligen Echokompensation von MATLAB nach ANSI C portiert und aufeinem DSP-Board mit Erfolg in Betrieb genommen (DSP: digitaler Signalpro-zessor). Ziel ist es, den Algorithmus im Forschungsfahrzeug der Abteilung zurVorverarbeitung eines automatischen Spracherkenners im Radiobetrieb einzu-setzen.

Mit dem neuen Mitarbeiter Herrn Franzen starten nun auch endlich Arbeitenzur Thematik der In-Car-Kommunikationssysteme (ICC-Systeme). Dabei han-delt es sich um ein System zur Unterstützung der sprachlichen Kommunikationvon Fahrer und Beifahrern (vorne ↔ hinten). Unter Nutzung wenigstens eineszusätzlichen Mikrofons für die hintere Sitzreihe ist es dann möglich, die Sprach-signale der vorderen und hinteren Passagiere separat zu erfassen, zusätzlich zuverstärken und an den gewünschten Positionen über die Lautsprecher auszuge-ben. Besonders bei lauten Umgebungsgeräuschen, wie z. B. bei hohen Geschwin-digkeiten auf der Autobahn, kann die Sprachverständlichkeit deutlich verbes-

58

Page 8: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

sert und die Sprechanstrengung der Insassen komfortabel gering gehalten wer-den.

Für die Umsetzung des ICC-Systems im Forschungsfahrzeug wird neueste Hard-ware von Analog Devices zum Einsatz kommen, wie sie in Abbildung 6 ge-zeigt ist. Die Hardware nutzt den sogenannten Automotive Audio Bus (A2B) vonAnalog Devices und ermöglicht dadurch die einfache Verwendung von kleins-ten digitalen Mikrofonen. Erste Untersuchungen der algorithmischen System-komponenten beschäftigten sich mit verschiedenen Postfiltervarianten für diezu nutzende akustische Echokompensation. Besonders wichtig ist dabei die Ein-haltung sehr enger Latenzgrenzen, da ein ICC-System immer auch die akus-tische Schallausbreitung zwischen den Gesprächsteilnehmern berücksichtigenmuss. Erste Ergebnisse wurden gemeinsam mit Dr. Heinrich W. Löllmann vonder Friedrich-Alexander Universität Erlangen-Nürnberg in einem Manuskriptzur Publikation eingereicht.

4.3 Sprachverbesserung in Mobiltelefonen

Das zweite Projektjahr zum Thema modellbasierter Störgeräuschreduktion fürMobiltelefone in Kooperation mit der R&D-Gruppe in Leuven, Belgien, der Fir-ma NXP Software B.V. wurde im Berichtszeitraum erfolgreich von Herrn Elsha-my abgeschlossen.

Forschungsschwerpunkt war dabei weiterhin die Verbesserung von gestörtenSprachsignalen in der Mobiltelefonie. Auf Basis der geleisteten Arbeit aus demersten Projektjahr und der ersten Hälfte des zweiten Projektjahres lag der Fo-kus primär auf der Verbesserung der spektralen Sprach-Einhüllenden, die denVokaltrakt repräsentiert. Das bisher entwickelte Hidden-Markov-Modell wurdeweiter verbessert und robuster gemacht in Hinblick auf verschiedene akustischeÜbertragungskanäle jeweils beim Training und beim Test (d. h. Betrieb) des Ver-fahrens. Dazu wurden verschiedene Ansätze der Normalisierung untersucht, umeiner Verschiebung von Formanten entgegenzuwirken.

Das innovative Verfahren zur Verbesserung des Anregungssignals aus der ers-ten Hälfte des zweiten Projektjahres wurde zunächst zum Patent angemeldet,danach aber auch als Publikation zu den IEEE/ACM Transactions on Audio,Speech, and Language Processing sowie zum Hands-free Speech Communicationand Microphone Arrays Workshop, eingereicht. Weiterhin wurden neue Metho-den zur Klassifizierung von stimmhaften und stimmlosen Lauten evaluiert, dieeine gezieltere Applikation des Verfahrens ermöglichen sollen.

59

Page 9: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Es freut uns ganz besonders, mit den zurückliegenden Arbeiten von Herrn Els-hamy zur aktuellsten Sprachtechnologie-Produktsuite von NXP Software beige-tragen zu haben, der LifeVibes VoiceExperience 10 für Smartphones.

4.4 Sprach- und Audio-Codierung bzw. Decodierung

Frau Han hat ihre Arbeiten im Berichtszeitraum erfolgreich abgeschlossen, ihreDissertation mit dem Titel “Contributions to Improved Hard- and Soft-DecisionDecoding in Speech and Audio Codecs” eingereicht und verteidigt. Quellenco-dierung ist ein wesentlicher Bestandteil digitaler Kommunikationssysteme. Einrobuster Quellendecoder ist vor allem für schlechte Übertragungsbedingungenunabdingbar. Gegenüber der herkömmlichen Hard-Decision(HD)-Decodierungund Fehlerverdeckung bietet die Soft-Decision(SD)-Decodierung eine höhere Ro-bustheit durch die Nutzung der Restredundanz der Quelle und durch die Ver-wendung der bitweisen Kanalzuverlässigkeitsinformation. Außerdem kann derQuantisierungs-Codebuchindex entweder einer festen Anzahl von Bits unterVerwendung einer festen Codewortlänge (fixed-length, FL), oder einer variablenAnzahl von Bits mit variabler Codewortlänge (variable-length, VL) zugeordnetwerden. Der Codebucheintrag selbst kann entweder konstant über der Zeit oderzeitvariant sein. Jedoch führt ein Codebuch unter Verwendung einer festen ska-laren Quantisierung zu gleicher Performanz für korrelierte wie für unkorrelierteProzesse. Diese Arbeit zielte darauf ab, die Leistung von Sprach- und Audio-Codecs mit FL- und VL-Codes empfangsseitig zu verbessern.

Während ihrer Zeit am IfN hat Frau Han an drei größeren Themenberei-chen gearbeitet: Zunächst wurde das Konzept der FL/SD-Decodierung auf denAdaptive Multi-Rate Narrowband (AMR-NB) und AMR Wideband (AMR-WB)Sprach-Codec angewandt, die in der mobilen Sprachkommunikation weit ver-breitet sind. Zusätzlich wurden für die spektrale Einhüllende neue Ansätze un-ter Nutzung von Inter- und Intra-Rahmen-Redundanz vorgestellt. Die Sprach-qualität wurde sowohl für AMR-NB als auch für AMR-WB deutlich verbes-sert. Als Zweites wurden mathematische Bezüge zwischen FL/SD- und VL/SD-Decodierungsalgorithmen abgeleitet. Dabei wurde der Trade-off der beidenSD-Decodierungs-Ansätze diskutiert. Sowohl das FL/SD- als auch das VL/SD-Decodierungsverfahren wurden im Zuge des High-Efficiency Advanced AudioCoding (HE-AAC) eingesetzt, welches für Anwendungen mit niedrigen Bitraten,wie dem mobilen Musik-Streaming oder dem Digitalen Rundfunk, optimiert ist.Im Rahmen subjektiver Hörtests zeigt die Audioqualität eine enorme Verbesse-rung. Schließlich wurde ein neuer Decodierungs-Ansatz zur Verbesserung derskalaren Quantisierungsleistung von korrelierten Prozessen vorgestellt. DurchAusnutzung der Quellen-Korrelation und unter Verwendung eines Prädiktorsim Empfänger konnte ein zeitvariables Codebuch erzeugt werden. Dieser vor-geschlagene Ansatz konnte vorteilhaft sowohl bei fehlerfreien als auch bei feh-

60

Page 10: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

lerbehafteten Übertragungsbedingungen eingesetzt werden, und zwar sowohlim Zuge der HD- wie auch der SD-Decodierung. Er wurde auch auf die beidenAdaptive-Differential-Pulse-Code-Modulation(ADPCM)-Sprachcodecs G.726 undG.722 angewandt, welche in der Schnurlos- und der IP-Telefonie standardisiertsind. Dabei wird eine verbesserte Sprachqualität erzielt. Außerdem wurden Er-gebnisse zur Anwendung der Soft-Decision-Decodierung auf die G.722 ADPCMin Zusammenarbeit mit Domingo López-Oller von der Universidad de Granada,Spanien, auf der ICASSP 2016 in Shanghai publiziert [HAN/FIN1].

Herr Zhao hat die Arbeiten von Frau Han zur robusten Sprachdecodierungin störungsfreier Übertragung weitergetrieben. So hat er einen verbessertenDecoder entworfen, der erstmals auch vektorquantisierte Signale mit höhe-rer Güte decodieren konnte. Dies war insofern neu, als die entsprechende Lö-sung von Frau Han für Skalarquantisierer, genauer, explizit nur für Lloyd-Max-Quantisierer entworfen war. Ein wesentliches Merkmal der Lösung von HerrnZhao ist der Einsatz eines künstlichen neuronalen Netzes für die notwendigeempfangsseitige Prädiktion des Signals. Die Resultate dieser Forschung sindauf der ITG-Fachtagung Sprachkommunikation in Paderborn vorgestellt worden[ZHA/HAN/FIN1].

Außerdem kommt in einem neuen Ansatz ein neuronales Netz zum Einsatz, umdie Rekonstruktion der quantisierten Sprache direkt zu verbessern. Auch dieGruppe um Prof. Lorenz vom Institut für Analysis und Algebra der TU Braun-schweig arbeitet an der Verbesserung niedrigratig codierter Sprache und erzieltmit der sog. „Sparse Reconstruction“ sehr gute Ergebnisse. In Zusammenarbeituntersuchen wir nun, ob sich die beiden unterschiedlichen Ansätze in geeigneterWeise kombinieren lassen, um weitere Verbesserungen zu erzielen.

5. Sprachverarbeitung und Mustererkennung

5.1 Automatische Spracherkennung nach dem Turboprinzip

Unsere Arbeiten zur automatischen Spracherkennung nach dem Turboprin-zip sind einen entscheidenden Schritt vorangekommen. Ähnlich der in derÜbertragungstechnik bewährten Turbo-Decodierung besteht in der automati-schen Spracherkennung das iterative Verfahren der Informationsfusion ausmehreren Informationsquellen aus einem modifizierten Vorwärts-/Rückwärts-Algorithmus (forward-backward algorithm, FBA) oder Viterbi-Algorithmus, dereine A-posteriori-Wahrscheinlichkeit (oder Viterbi-Scores) zur Erkennung so-wie eine modifizierte A-posteriori-Wahrscheinlichkeit (A-posteriori probability –APP) zur iterativen Rückkopplung vorsieht. Zwei einfache (unimodale) Einzeler-kenner werten dann wiederholt das jeweilige Einzelsignal aus und tauschen vonIteration zu Iteration Informationen (APPs) miteinander aus, so dass die Erken-

61

Page 11: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

nungsergebnisse beider Einzelerkenner schließlich ein besseres Erkennungser-gebnis erzielen als das jeweils beste Einzelerkennungsergebnis vor der Fusion.

Zunächst freuen wir uns, dass Herrn Receveurs ursprüngliche Publikation desVorwärts-Rückwärts-Algorithmus (forward-backward algorithm, FBA) nach demTurboprinzip als Buchkapitel herausgegeben worden ist [REC/FIN1]. Daraufaufbauend war das Turboprinzip auch auf den Viterbi-Algorithmus übertra-gen worden. Eine besondere Herausforderung war hier die Generierung der ex-trinsischen Information, die dann der Feedback-Schleife übergeben wird. Dieskonnte jedoch gut gelöst werden; der Turbo-Viterbi-Erkenner vermag ebensowie der Turbo-FBA-Erkenner die Referenzverfahren zur Informationsfusion aufdie Plätze zu verweisen. Ein weiteres Novum war die Anwendung auf eine uni-modale Task; hier wurde die Informationsfusion von den klassischen MFCCs(mel-frequency cepstral coefficients) mit phasenbasierten Merkmalen im Zu-ge der Turbo-Erkennung untersucht. Beide Fortschritte konnten nun in denIEEE/ACM Transactions on Audio, Speech, and Language Processing publiziertwerden [REC/FIN2]. Besonders freut uns, dass der Artikel schon seit dem Vor-veröffentlichungstermin (Februar 2016) durchgängig unter den Top 3 der mo-natlich veröffentlichten „50 Most Popular Articles“ des Journals geführt wird,bis August 2016 sogar zweimal auf Platz eins.

Wenngleich in [REC/FIN2] fundamental wichtige Grundlagen der Turbo-Viterbi-Erkennung vorgestellt wurden, so ist das darin präsentierte Scheduling desiterativen Turbo-Verfahrens noch nicht wirklich echtzeittauglich. Möchte mandas Turboprinzip also wirklich in die Praxis der automatischen Spracher-kennung mittels Viterbi-Decoder bringen, so müssen die Iterationen in kurz-en sog. Blocks durchgeführt werden, bis dann der nächste Block von Merk-malsvektoren verarbeitet wird. In einer weiteren Publikation zeigt Herr Rece-veur auf, wie sich Blocklänge und sog. Lookahead-Länge auf die Performanzdes Erkenners auswirken. Schon mit einer Blocklänge von 30 ms und einerLookahead-Länge von 20 ms lassen sich Ergebnisse erzielen, die nah an dernicht-echtzeitfähigen Variante aus [REC/FIN2] liegen. Diese Untersuchung wur-de publiziert und auf der ITG-Fachtagung Sprachkommunikation in Paderbornvorgetragen [REC/LOH/FIN1].

Aus der Informationstechnik sind nicht nur die Turbocodes wegen ihrer hervor-ragenden Fehlerkorrektureigenschaften bekannt geworden. Auch die sog. EXIT-Charts (extrinsic information transfer) haben Berühmtheit erlangt: Mit ihnenkann man auch ohne die aufwändige Simulation der iterativen Decodierung be-reits abschätzen, inwieweit der Einsatz der beteiligten Codes eine hohe Perfor-manz bei Nutzung im Turbo-Kontext erwarten lässt. Aus diesem Grunde hatHerr Lohrenz mit Vorarbeiten begonnen, um das Prinzip der EXIT-Charts auchauf die automatische Spracherkennung nach dem Turboprinzip zu übertragen.Ein erster Erfolg, sozusagen ein Proof of Concept ist erbracht: Tatsächlich kann

62

Page 12: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

man durch Umschreibung der (binären) Transinformation hin zu einer mehr-wertigen Definition, die sich auf die Zustände des Erkenners bezieht, die Basisfür EXIT-Charts für Turbo-Spracherkennung schaffen. Durch geschickte Model-lierung der extrinsischen Daten, die den einzelnen Erkennern zugeführt wer-den, können sog. Transfercharakteristiken erzeugt werden, die einen Verlaufder Transinformation im iterativen Erkennungsprozess vorhersagen. Im Ver-lauf der Iterationen eines Turboerkenners ist es tatsächlich erstmals zu beob-achten gewesen, dass der Turboerkenner sich – genau wie der Turbo-Decoderin der Übertragungstechnik – Stufe für Stufe bis hin zu einer Kreuzung die-ser Transfercharakteristiken hinaufhangelt; von dort aus ist dann kein weitererGewinn mehr möglich. Diese erstaunlichen ersten Resultate sind auf der ITG-Fachtagung Sprachkommunikation publiziert [LOH/REC/FIN1] und mit einemBest Student Paper Award prämiert worden, siehe auch der Sonderbericht aufSeite 88.

Zusätzlich zu den EXIT-Charts wurden weitere Fortschritte im Bereich derTurbo-Spracherkennung erzielt. Zur akustischen Modellierung werden nun an-stelle der altbewährten Gaußschen Mischmodelle tiefe neuronale Netze verwen-det, die in den letzten Jahren zu einer deutlichen Steigerung der Performanzvon Spracherkennungssystemen beigetragen haben. Das langfristige Ziel ist wei-terhin, die Turbo-Spracherkennung auch für die Erkennung von natürlicherSprache (große Wortschätze, komplexe Grammatik und flüssige Sprechweise) zunutzen. Daher wurden die Algorithmen so angepasst, dass die iterative Turbo-Fusion als Präprozessor verbesserte A-posteriori-Zustandswahrscheinlichkeitenauf Lautebene liefert, um in darauffolgenden Verarbeitungsschritten eine robus-tere Erkennung von Sprache zu ermöglichen. Ein Artikel, der alle diese Fort-schritte abdeckt, wurde zusammen mit Dr. Pejman Mowlaee (TU Graz) zu einerTagung eingereicht.

5.2 Sprachanalyse von Team-Meetings, Emotionserkennung

Team-Meetings verlaufen häufig nicht sonderlich produktiv. Zu diesem Zwecksind Instrumente in der Erforschung und Entwicklung, mittels Kameras und Mi-krofonen Team-Meetings zu beobachten, automatisch zu analysieren und Teamsim Nachgang Feedback zu liefern.

Bei der Analyse von Team-Meetings ist es das Ziel, Kommunikationsmuster wiez. B. „Wer spricht mit wem?“ oder „Wer leitet das Meeting?“ mit Hilfe von audiovi-sueller Mustererkennung automatisiert zu detektieren. Die akustische Sprach-analyse beruht dabei auf einer mehrkanaligen Aufzeichnung der Team-Meetingsdurch Headsets, welche von allen Probanden getragen werden. Hierbei müssendie einzelnen Sprachanteile der Sprecher aus der mehrkanaligen Aufnahme zu-nächst separiert und qualitativ verbessert werden. Arbeiten zur einkanaligen

63

Page 13: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Sprecherseparation sind hingegen in dem neu eingeworbenen Promotionspro-gramm komma.G mit einem neuen Doktoranden ab Anfang 2017 geplant.

In der Emotionserkennung hat man grundsätzlich damit zu kämpfen, dass eskeine objektiven Labels gibt, die der „Wahrheit“ entsprächen. Sprachdateien mitemotional gesprochener Sprache werden üblicherweise von beurteilenden Pro-banden einer der 7 Basisemotionen zugeordnet, wobei es hier durchaus zu Mehr-deutigkeiten kommt. Dies wirft die Frage auf, ob die daraus entstehende subjek-tive Verteilung über alle 7 Basisemotionen nicht auch als korrekte Klassifizie-rung für das Erkennungssystem gelten sollte, anstatt des bisherigen Mehrheits-entscheids der von den Probanden getroffenen Entscheidungen. Hierzu wurdedas bestehende Emotionserkennungssystem auf diese Fragestellung angepasstund in diesem Zuge eine „weiche“ (engl. soft) Version der linearen Diskrimi-nanzanalyse entworfen, welche zusammen mit den Ergebnissen dieser Studievon Herrn Meyer auf der diesjährigen ICASSP in Shanghai publiziert wurde[MEY/FIN1].

Weiterhin wird an der Erstellung eines Journal-Artikels zur mehrkanaligenSprecher-Interferenzreduktion und Sprecheraktivitätsdetektion im skizziertenTeam-Meeting-Szenario mit Headsets gearbeitet. Beide Verfahren sind für wei-tere Analysen zwingend erforderlich, da die Headset-Mikrofone, ausgestattetmit einer kugelförmigen Richtcharakteristik, auch die Äußerungen der anderenMeeting-Teilnehmer mit zum Teil hohem Schallpegel aufnehmen und dadurchÜberlappungen von Sprache und Störungen auf den einzelnen Mikrofonkanälenauftreten. Die Grundzüge dieser Forschung sind gemeinsam mit einem Studen-ten in einer Masterarbeit [MA 16/004] entwickelt worden.

Die visuelle Analyse der Team-Meetings umfasst in erster Linie eine Blickdetek-tion der Teilnehmer, welche anschließend mit den akustischen Mustern zur Be-stimmung der Kommunikationsmuster kombiniert wird. Hierzu wurde im Rah-men einer Masterarbeit [MA 16/007] ein RGB-D-Sensor (RGB-D: red, green,blue-depth) in Betrieb genommen und ein erstes modellbasiertes System zurBlickrichtungsdetektion erfolgreich implementiert.

5.3 Handschrifterkennung

Auf dem Gebiet der Handschrifterkennung wurden im Berichtszeitraum zweiunterschiedliche Bereiche bearbeitet. Einerseits wurde das Konzept der semi-automatischen Transkription weiter verfolgt. Im Fall von historischen arabi-schen Manuskripten, für die üblicherweise kein oder nur sehr wenig Trainings-material zur Verfügung steht, konnte ein auf zeitgenössischen Dokumenten trai-nierter Handschrifterkenner iterativ so angepasst werden, dass dieser auf einemhistorischen Manuskript bei wachsender Seitenzahl immer bessere Ergebnisseliefert.

64

Page 14: Abteilung Signalverarbeitung (Fingscheidt) · PESQ) als die MMSE-Schätzung über klassifizierte Codebuch-Einträge (DNN als Klassifikator); (4) die verbesserten Sprachqualitätsschätzwerte

Auf der anderen Seite konnten im Kooperationsprojekt mit der ITUC GmbH un-sere bislang durch Grundlagenforschung erworbenen Kenntnisse auf diesem Ge-biet in die Praxis eingebracht werden. In diesem Projekt entwickelt Herr Pantkeeinen Erkenner für handschriftlich ausgefüllte Formularfelder. Anders als beihistorischen Manuskripten ist es hier theoretisch stets möglich, weitere Probenfür das Training des Erkenners zu erwerben. So wurden etwa auch ganze Fuß-ballmannschaften dazu gebracht, für das Projekt handschriftlich Formulare aus-zufüllen. In der ersten Entwicklungsstufe beherrscht das System bereits die Er-kennung von Blockzeichen, wie etwa aus Datumsfeldern oder Namensfeldern aufÜberweisungsträgern. Hier konnten vielversprechende Ergebnisse erzielt wer-den [PAN/FIN1]. Im nächsten Entwicklungsschritt stehen nun Kursivschriftenund mehrzeilige Freitexte, wie etwa Kommentare aus Seminar-Feedback-Bögen,an. Um aufwändige manuelle Nacharbeiten der erkannten Texte zu reduzieren,gibt der Erkenner zu jedem Text auch einen Konfidenzwert an, der aussagt, wiesicher sich der Erkenner beim jeweiligen Text war.

65