15
Abteilung Signalverarbeitung für die Verkehrsinformationstechnik (Fingscheidt) 1. Forschungsfelder der Abteilung Die Abteilung Signalverarbeitung arbeitet in den beiden Forschungsfeldern Sprach- und Audiosignalverarbeitung sowie Mustererkennung. Im Bereich der Sprach- und Audiosignalverarbeitung erforschen wir Verfah- ren zur Störgeräuschreduktion, akustischen Echokompensation, künstlichen Sprach-Bandbreitenerweiterung und dazugehörige Qualitätsmessverfahren, Beamforming sowie höherqualitative, aber standardkonforme Sprach- und Audiodecoder. Weitere Forschungsthemen zur Mustererkennung auf Basis akustischer Signale sind die Emotionserkennung sowie die akustische Event- Lokalisierung und Erkennung. Die Anwendungsbereiche reichen von der Fahrzeug- und Enterprise-Kommunikation über Hörgeräte, Überwachungstech- nologien und Freisprechsysteme bis hin zur Mobiltelefonie und zu Gateways. Im weiteren Bereich der Mustererkennung forschen wir im Kontext der Do- kumentverarbeitung an Verfahren zur arabischen Handschrifterkennung und Schreiberklassifikation. Weiterhin entwickeln wir Modelle für Komponenten der ereigniskorrelierten Potentiale (EKP) und erforschen die Hypothese des sog. Bayesian Brain. 2. Projekte Im Berichtsjahr wurde das mit dem European Media Laboratory (EML) in Heidelberg durchgeführte, von der Deutschen Forschungsgemein- schaft (DFG) geförderte, Erkenntnistransferprojekt ASTABET zur Offline- Bandbreitenerweiterung schmalbandiger Telefonsprachdatenbanken für das Training breitbandiger automatischer Spracherkenner erfolgreich abgeschlos- sen. Ebenfalls ist das aus DFG-Mitteln aus dem sog. Zukunftsfonds der Techni- schen Universität Braunschweig geförderte Projekt zur Erforschung von EKP- Signalmodellen zur Vorhersage der Überraschung einer Testperson mit hochin- teressanten Ergebnissen zu einem Ende geführt worden. Im Rahmen unseres internationalen DFG-Projektes HADARA mit Partnern aus Israel und Palästina forschen wir im Bereich der arabischen historischen Doku- mentanalyse. Diesjährige Forschungsschwerpunkte waren das Word-Spotting, die Schreibererkennung und nicht zuletzt die Handschrifterkennung. Darüber hinaus wurde verstärkt an der Entwicklung des HADARA-Systems weiter gear- 55

Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

Embed Size (px)

Citation preview

Page 1: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

Abteilung Signalverarbeitung

für die Verkehrsinformationstechnik (Fingscheidt)

1. Forschungsfelder der Abteilung

Die Abteilung Signalverarbeitung arbeitet in den beiden ForschungsfeldernSprach- und Audiosignalverarbeitung sowie Mustererkennung.

Im Bereich der Sprach- und Audiosignalverarbeitung erforschen wir Verfah-ren zur Störgeräuschreduktion, akustischen Echokompensation, künstlichenSprach-Bandbreitenerweiterung und dazugehörige Qualitätsmessverfahren,Beamforming sowie höherqualitative, aber standardkonforme Sprach- undAudiodecoder. Weitere Forschungsthemen zur Mustererkennung auf Basisakustischer Signale sind die Emotionserkennung sowie die akustische Event-Lokalisierung und Erkennung. Die Anwendungsbereiche reichen von derFahrzeug- und Enterprise-Kommunikation über Hörgeräte, Überwachungstech-nologien und Freisprechsysteme bis hin zur Mobiltelefonie und zu Gateways.

Im weiteren Bereich der Mustererkennung forschen wir im Kontext der Do-kumentverarbeitung an Verfahren zur arabischen Handschrifterkennung undSchreiberklassifikation. Weiterhin entwickeln wir Modelle für Komponenten derereigniskorrelierten Potentiale (EKP) und erforschen die Hypothese des sog.Bayesian Brain.

2. Projekte

Im Berichtsjahr wurde das mit dem European Media Laboratory (EML)in Heidelberg durchgeführte, von der Deutschen Forschungsgemein-schaft (DFG) geförderte, Erkenntnistransferprojekt ASTABET zur Offline-Bandbreitenerweiterung schmalbandiger Telefonsprachdatenbanken für dasTraining breitbandiger automatischer Spracherkenner erfolgreich abgeschlos-sen.

Ebenfalls ist das aus DFG-Mitteln aus dem sog. Zukunftsfonds der Techni-schen Universität Braunschweig geförderte Projekt zur Erforschung von EKP-Signalmodellen zur Vorhersage der Überraschung einer Testperson mit hochin-teressanten Ergebnissen zu einem Ende geführt worden.

Im Rahmen unseres internationalen DFG-Projektes HADARA mit Partnern ausIsrael und Palästina forschen wir im Bereich der arabischen historischen Doku-mentanalyse. Diesjährige Forschungsschwerpunkte waren das Word-Spotting,die Schreibererkennung und nicht zuletzt die Handschrifterkennung. Darüberhinaus wurde verstärkt an der Entwicklung des HADARA-Systems weiter gear-

55

Page 2: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

beitet, mit dessen Hilfe eine einfache Nutzung der verschiedenen Anwendungenermöglicht wird.

Drei Projekte aus dem Förderprogramm Zentrales Innovationsprogramm Mittel-stand (ZIM) des Bundesministeriums für Wirtschaft und Technologie haben wirim Berichtszeitraum weitergeführt: In einem Projekt mit der Firma Pan Acou-stics GmbH in Wolfenbüttel entwerfen wir Algorithmen für ein kombiniertesLautsprecher- und Mikrofonarray in öffentlichen Räumen mit der besonderenHerausforderung einer akustischen Echokompensation bei extrem widrigen Pe-gelbedingungen.

In dem Förderprojekt „Audioradar“ mit der Firma artec technologies AG in Diep-holz statten wir Videoüberwachungssysteme mit Mikrofonbeamformern aus undentwickeln eine Kamerasteuerung, die sich u. a. nach akustisch relevanten Er-eignissen ausrichtet.

In dem ebenfalls weitergeführten Projekt „VoiceMail by Voice“ mit der FirmaAuerswald in Cremlingen entwickeln wir eine neuartige Sprachsteuerung einerVoice-Mailbox auf einem Systemtelefon. Besonderheit ist hier, dass aus Sicher-heitsgründen der Spracherkenner auf dem Endgerät und nicht in einer Tele-fonanlage oder einem Server implementiert ist, und dass eine Remote-Telefon-Sprachbedienung vorgesehen ist.

Im Berichtsjahr wurde auch die Bearbeitung eines neuen ZIM-Projekts gestar-tet. Im Projekt „Car in a Box“ mit der Firma HEAD acoustics in Herzogenrathgeht es um die Simulation der Akustik von Fahrzeugkabinen. Ziel dabei ist dieEntwicklung eines Gerätes, das Wissenschaftler und Entwickler von automoti-ven Sprachtechnologien bei ihrer Arbeit unterstützt.

Im Rahmen des Förderprogramms „Hochschuldialog mit der arabischen Welt“des DAAD (Deutscher Akademischer Austauschdienst) haben wir das Pro-jekt „Masterstudiengang Informationstechnik und Universitätsnetzwerk“ fort-geführt. Besonderes Ereignis war in diesem Jahr die Sommerschule, die wir mitBeteiligung von Dozenten aus Braunschweig in Tunis durchgeführt haben (siehedazu auch den Sonderbericht auf Seite 98).

Mit der Firma NXP Software B.V. in Leuven, Belgien, wurde im Berichts-zeitraum sowohl an einer künstlichen Sprachbandbreitenerweiterung vonBreitband- auf sog. Superwideband-Sprache geforscht als auch mit Arbeitenfür ein instrumentelles Sprachqualitätsmaß für diese Verfahren begonnen.

Neu beauftragt wurden im Berichtszeitraum von NXP Software B.V. darüberhinaus grundlegende Arbeiten zur modellbasierten Störgeräuschreduktion fürMobiltelefone.

56

Page 3: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

3. Mitarbeiterinnen und Mitarbeiter der Abteilung

Im Berichtszeitraum begrüßten wir als neuen Mitarbeiter im Bereich Sprachver-arbeitung Herrn Samy Elshamy (seit 01.01.2014). Im Bereich der Sprach- undAudiosignalverarbeitung forschen darüber hinaus die Herren Abel, Bauer undFodor (bis 31.10.2014), Frau Han sowie die Herren Jung, Meyer, Receveur undTransfeld. Weitere Mitarbeiter sind im Bereich der Mustererkennung der akade-mische Direktor Herr Dr. Märgner sowie die Herren Fecker, Kolossa und Pantke.Damit arbeiteten zum Ende des Berichtszeitraums in der Abteilung Signalverar-beitung neben Prof. Fingscheidt und weiterhin Frau Erichsen-Rua noch 12 Wis-senschaftlerinnen und Wissenschaftler.

Bis zum 31.08.2014 forschte Dr. Fouad Slimane von der Universität Fri-bourg/Schweiz als Gastwissenschaftler im Rahmen eines Postdoc-Aufenthaltsbei uns. Er hat inzwischen an die Ecole Polytechnique Fédérale de Lausanne(EPFL) gewechselt, wo er im Digital Humanities Laboratory (DHLAB) weiteran der Analyse historischer Dokumente arbeitet. Ebenfalls war vom 01.09. bis30.11.2014 der Doktorand Marouane Ayech von der Ecole Nationale de Tunis(ENIT) im Rahmen des DAAD-Projektes mit Forschungsarbeiten zur Dokument-analyse bei uns beschäftigt.

Im Berichtszeitraum haben bei uns vier Studierende eine Masterarbeit abge-schlossen. Weiterhin hat uns noch eine Vielzahl studentischer Hilfskräfte unter-stützt.

4. Sprach- und Audiosignalverarbeitung

4.1 Sprachverbesserung

High Definition (HD) Voice ist der Markenname für hochqualitative Mobiltele-fonie basierend auf Breitbandsprache. In nunmehr 75 Ländern und über 110Netzen weltweit ist HD Voice im Einsatz. In Deutschland ist HD Voice in denNetzen von T-Mobile, Vodafone und E-Plus verfügbar. Herr Jung hat im Be-richtszeitraum die breitbandige Echokompensation aus einem früheren Förder-projekt mit der Firma Auerswald aus Cremlingen zu einem automotiven HD-Voice-Freisprechsystem weiterentwickelt. Dieses wird fortlaufend in unseremForschungsfahrzeug mithilfe des DFG-geförderten Mess- und Experimentalsys-tems optimiert und getestet. Auch die Echtzeitdemonstration des Algorithmusist somit in der realistischen Fahrzeugumgebung möglich, wie es auch im Son-derbericht zur Ausstellung auf der ITG Fachtagung Sprachkommunikation aufSeite 102 beschrieben ist [JUN/BAU/ABE/FIN1].

Zur Entwicklung und Evaluation automotiver Sprachtechnologien ist man häu-fig auf die Verfügbarkeit verschiedener Fahrzeugprototypen und einer optimier-

57

Page 4: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

ten Akustikhalle angewiesen, gerade wenn man das Verhalten des späteren Pro-dukts in unterschiedlichen Fahrzeugtypen und -modellen überprüfen möchte.Da jedoch oftmals die Entwicklung der Sprachfunktionen, wie zum Beispiel desFreisprechsystems, gleichzeitig mit der endgültigen Entwicklung der Fahrzeug-kabine stattfindet, sind geeignete Akustikprototypen der Fahrzeuge rar bzw. fürZulieferer kaum in angemessener Weise verfügbar. Diese Problematik wird imRahmen des ZIM-Projektes „Car in a Box“ gelöst, das in Kooperation mit derFirma HEAD acoustics in Herzogenrath bei Aachen bearbeitet wird. Durch daszu entwickelnde Gerät wird es möglich sein, die Akustik von Fahrzeugkabinensimulativ nachzubilden, so dass die Entwicklung und Evaluation von Freisprech-systemen kostengünstig, reproduzierbar und flexibel am Entwicklerarbeitsplatzdurchgeführt werden kann. Unser geplanter Beitrag zum Kooperationsprojektwird in erster Linie die algorithmische Gestaltung der Systemidentifikation undAuralisation umfassen.

Im Bereich der Störgeräuschreduktion hat Herr Fodor die Kooperation mit demDepartment of Medical Physics and Acoustics der Carl von Ossietzky Univer-sität in Oldenburg weitergeführt und eine weitere gemeinsame Publikation mitProf. Dr.-Ing. Timo Gerkmann veröffentlicht. Das Forschungsthema war die Wei-terentwicklung von Verfahren zur Sprachsignalverbesserung unter Berücksich-tigung von Wahrscheinlichkeiten der Sprachaktivität (speech presence uncer-tainty, SPU). Für die Schätzung der Sprachanwesenheitswahrscheinlichkeiten(speech presence probability, SPP) werden ein geeignetes statistisches Sprach-modell, ein neuartiger Parametrierungsansatz und gemittelte Beobachtungeneingesetzt. Das gemeinsam entwickelte neue Verfahren bietet eine verbesser-te Qualität der Sprachkomponente, eine deutlich größere Störgeräuschunter-drückung und einen merkbar reduzierten Pegel der sog. Musical Noises. Da dieHerleitung eines solchen SPP-Schätzers mathematisch sehr anspruchsvoll ist,wurde zunächst eine auf Approximation beruhende [FOD1], später jedoch einegeschlossene Lösung veröffentlicht [FOD2].

Herr Fodor hat am 17. Juni 2014 seine Dissertation zum Thema Störgeräusch-reduktion für Sprachsignale mittels frequenzbereichsbasierter MMSE-Schätzereingereicht (minimum mean square error, MMSE). Ein wesentlicher Fokusliegt auf den statistischen Sprachmodellen und den resultierenden Schätzre-geln. Nach einem umfangreichen Überblick zum Stand der Technik werden ei-ne neue bivariate (d. h. mit komplexwertigem Argument) Wahrscheinlichkeits-dichtefunktion (probability density function, PDF) und neue SPP-Schätzer (un-ter anderem der aus [FOD2]) hergeleitet. Darüber hinaus wird eine Über-sicht über PDF-konsistente MMSE-Schätzverfahren mit SPU gegeben. Einenweiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren:Zum einen werden die Forschungsfelder Störgeräuschreduktion und Fehlerver-deckung in Beziehung zueinander gesetzt. Es werden Gemeinsamkeiten, Un-terschiede und bisher unbekannte Bezüge zwischen beiden Disziplinen disku-

58

Page 5: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

tiert und ein grundsätzlicher Vorteil von Fehlerverdeckungsverfahren identi-fiziert. Motiviert durch diese Erkenntnis, werden Forschungsperspektiven fürdas Themenfeld der Störgeräuschreduktion aufgezeigt. Zum anderen wird ei-ne neue, statistische Darstellung von rekursiver MMSE-Schätzung der Sprachepräsentiert. Diese ermöglicht es, die modernen statistischen Modelle der klassi-schen, nicht-rekursiven Verfahren auf den rekursiven Fall anzuwenden. In die-sem Kontext wird die rekursive MMSE-Schätzung mit einem SPU-Verfahren er-weitert. Schließlich wird ein neues, referenzfreies Messverfahren für das Signal-Rausch-Verhältnis (SNR) vorgestellt. Das Ziel des Verfahrens ist, das SNR ei-nes von Fahrzeuggeräuschen gestörten Sprachsignals referenzfrei zu schätzen.Das Schätzergebnis soll so nah wie möglich am referenzbasierten Messverfah-ren nach ITU-T Recommendation P.56 liegen. Das neue Verfahren zeichnet sichdurch kleine Messfehler und eine hohe Korrelation der Messwerte mit dem Re-ferenzverfahren aus und kann mit Schmalband- sowie mit Breitbandsignalenverwendet werden. Die Focus Group on Car Communication (FG CarCOM) derITU-T Study Group 12 hat beschlossen, das Verfahren in den Entwurf eines zu-künftigen Standards aufzunehmen.

Des Weiteren konnte ein Projekt mit der Firma NXP Software in Leuven (Belgi-en) gestartet werden, in dem grundlegende Untersuchungen zu einer modellba-sierten Störgeräuschreduktion im Kontext der Mobiltelefonie durchgeführt wer-den. Stand der Entwicklung von Herrn Elshamy in diesem Projekt ist ein neuar-tiges einkanaliges System, basierend auf einer Modellierung des Sprachsignalsals Gaußsche Mischverteilung (GMM), das in iterativer Weise ein verbessertesSprachsignal berechnet.

4.2 Künstliche Sprachbandbreitenerweiterung und Qualitätsmaße

Für ihre Arbeiten zur konsistent hohen Sprachqualität durch künstliche Sprach-und Bandbreitenerweiterung in Kooperation mit der Firma Auerswald wur-den Patrick Bauer, Marc-André Jung und Prof. Fingscheidt mit dem IHK-Technologietransferpreis 2014 ausgezeichnet. Mehr dazu siehe im Sonderberichtauf Seite 86.

Das vom 01.04.2012 bis 30.09.2014 laufende DFG-ErkenntnistransferprojektASTABET in Kooperation mit dem European Media Laboratory (EML) wurdevon Herrn Bauer erfolgreich abgeschlossen [BAU/FIN2]. Gegenstand des Trans-fervorhabens war eine Offline-Bandbreitenerweiterung von schmalbandigen Te-lefonsprachdatenbanken zum Training breitbandiger automatischer Spracher-kenner. Um diese Technologie zur Datenbankerweiterung in die Anwendung zubringen, stellte das EML seine vollständige Trainings- und Testprozesskette fürdie automatische Spracherkennung zur Verfügung. Damit konnten praxisnaheUntersuchungen im Gesamtsystem durchgeführt werden.

59

Page 6: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

Durch umfangreiche Optimierungen der Trainings- und Testtools zur künstli-chen Bandbreitenerweiterung konnte Herr Bauer die Performanz des Sprach-erkenners signifikant steigern. Im Vergleich zur Erkennungsreferenz, diemit einer begrenzten Trainingsdatenmenge an Breitbandsprache auskommenmusste, wurde durch Hinzufügen bandbreitenerweiterter Trainingssprachda-ten eine Verringerung der Wortfehlerrate um gut 9% relativ nachgewiesen[BAU/ABE/FIN1]. Im Gegensatz zum bisherigen Stand der Technik, der mittelseiner erkennerspezifischen Lösung ein vergleichbares Ergebnis erzielt, kann diehier dargestellte Lösung von potentiellen Anwendern ohne zusätzliche Modifi-kation am Erkenner eingesetzt werden.

Zur Optimierung der Bandbreitenerweiterung im Telefoniebereich wurdenzunächst in Zusammenarbeit mit NXP Software B.V. subjektive und instru-mentelle Sprachqualitätstests durchgeführt [BAU/FIN1]. Hierbei liefertenweit verbreitete instrumentelle Prädiktionsmaße wie Perceptual Evaluationof Speech Quality (PESQ) und Perceptual Objective Listening Quality Assess-ment (POLQA) nur mäßige Korrelationen von 0,82 bzw. 0,75 mit den subjekti-ven Referenzergebnissen. Durch Integration von zwei neuronalen Netzen zur/s/-Phon-Klassifikation und Energiekorrektur konnte Herr Bauer den HMM-basierten Schätzprozess der Bandbreitenerweiterung optimieren: Jeweils mitund ohne direkten Vergleich zu schmalbandiger Telefonsprache wurde einesignifikante Qualitätsverbesserung von 1,01 bzw. 0,19 MOS-Punkten erzielt[BAU/ABE/FIN2].

In einem 2013 mit NXP Software B.V. aus Leuven gestarteten Projekt hat HerrAbel das von Herrn Bauer entwickelte Verfahren zur künstlichen Sprachband-breitenerweiterung von Wideband (Frequenzbereich 50 ... 7000 Hz) auf Super-wideband (Frequenzbereich 50 ... 14000 Hz) verfeinert und erste erfolgreicheTests durchgeführt. Im Fokus der mittlerweile in das zweite Projektjahr gehen-den Industriekooperation steht jedoch seit einiger Zeit die Grundlagenforschungzur Entwicklung eines instrumentellen Sprachqualitätsmaßes für Sprachsigna-le, die künstlich in der Bandbreite erweitert wurden. Wie vom Institut für Nach-richtentechnik in [BAU/FIN1] gezeigt werden konnte, versagen bekannte instru-mentelle Qualitätsmaße wie PESQ oder POLQA und zeigen nur mäßige Kor-relationen. Zur weiteren Entwicklung des Verfahrens war der Zugriff auf pro-zessiertes Sprachmaterial verschiedenster Algorithmen zur Bandbreitenerwei-terung notwendig. Dazu hat Prof. Fingscheidt über 20 in diesem Arbeitsgebiettätige Firmen und Universitäten angeschrieben und darum gebeten, entspre-chende Sprachdaten zur Verfügung zu stellen. NXP Software und die TechnischeUniversität Braunschweig planen um die Jahreswende umfangreiche subjekti-ve Hörtests in Deutsch, Englisch, Mandarin und Koreanisch, deren individuel-le Ergebnisse den Teilnehmern dann übermittelt werden. Die Sprachdaten und

60

Page 7: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

Hörtestergebnisse dienen dann in naher Zukunft dazu, ein geeignetes instru-mentelles Maß zu entwickeln.

4.3 Mehrkanalige Verarbeitung akustischer Signale

In Kooperation mit der Firma Pan Acoustics aus Wolfenbüttel hat Herr Fodorunter Zuarbeit von Herrn Elshamy Algorithmen zur Signalverarbeitung für einkombiniertes Lautsprecher- und Mikrofonarray entwickelt. Durch die physikali-sche Nähe zwischen den Lautsprechern und den Mikrofonen ist eine akustischeEchokompensation (AEC) vonnöten, die das Echo (von den Lautsprechersignalenstammend) aus dem Mikrofonarray-Ausgang herausrechnet.

In dem ZIM-Projekt „Audioradar“ mit der Firma artec technologies AG in Diep-holz hat Herr Transfeld die Algorithmen zur akustischen Quellen-Lokalisierungmit einem 16-kanaligen Mikrofonarray entwickelt. Da im Rahmen des Projektseine Kamera auf die akustische Quelle ausgerichtet werden soll, ist eine mög-lichst genaue Lokalisierung der Quelle erforderlich. Bei einem Abstand vonQuelle zu Array zwischen 2 und 15 Metern ermöglicht die aktuelle algorithmi-sche Lösung eine Ortung der akustischen Quellen auf wenige Grad genau. ZurEntwicklung der Algorithmen wurde zunächst eine mehrkanalige Geräuschda-tenbank aufgenommen: An verschiedenen Positionen innerhalb eines Hörsaalswurden mit einem Lautsprecher kurze akustische Ereignisse erzeugt und gleich-zeitig mit dem für das Projekt entwickelten Mikrofonarray aufgezeichnet. Zu-sätzlich akquirierte Störgeräusche konnten im Nachhinein genutzt werden, umdie Performanz des Lokalisierungsalgorithmus unter verschiedenen Signal-zu-Rausch-Leistungsverhältnissen (SNRs) zu evaluieren und zu optimieren.

Auf Basis der simulierten Lokalisierungsszenarien konnte ein echtzeitfähigerDemonstrator entwickelt werden, bei dem die akustische Quelle lokalisiert undauf dem zugehörigen Panoramakamerabild dargestellt wird. Zur Thematik derreinen Quellenlokalisierung wurde eine Publikation angefertigt und auf ei-ner internationalen Tagung eingereicht. Der im Projekt aufgekommenen Fragenach Geräuschklassifikation wurde bereits in ersten Vorarbeiten nachgegangen[TRA/REC/FIN1].

Timo Matheja von der Firma Nuance in Ulm konnte mit der Einreichung sei-ner Dissertation seine wiss. Arbeiten vorerst zu einem Abschluss bringen. Erbeschäftigte sich mit sprachverarbeitenden Systemen im Kraftfahrzeug, wobeisitzplatzindividuell verbaute Mikrofone zum Einsatz kommen. Dabei handelt essich nicht um ein Mikrofonarray mit festgelegten Sensorabständen, sondern umein Konzept zur Schallerfassung mittels verteilter Mikrofone. Es wurde ein um-fangreicheres Journalpaper zu verschiedenen Aspekten des Gesamtsystems ver-öffentlicht [FIN1].

61

Page 8: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

4.4 Automatische Spracherkennung und Emotionserkennung

Herr Receveur führte im Berichtszeitraum das ZIM-Projekt „VoiceMail by Voice“mit der Firma Auerswald in Cremlingen weiter, in dessen Rahmen eine neuar-tige Sprachsteuerung einer Voice-Mailbox auf einem Systemtelefon entwickeltwerden soll. In den laufenden Arbeitspaketen wurden hierzu von Herrn Rece-veur ein Trainings- und Test-Setup sowie eine geeignete Voicemail-Grammatikerarbeitet. Weiterhin konnte die Robustheit der Echtzeit-Spracherkennungs-Demo deutlich verbessert werden, so dass bei dateibasierten Testverfahren aufeinem Linux-PC eine Erkennungsrate von 99% erzielt werden konnte. Im weite-ren Projektverlauf ist nun die Systemintegration auf einer von der Firma Auers-wald neu entwickelten Telefonplattform zu einem prototypischen Gesamtsystemgeplant.

Auf dem Gebiet der robusten Spracherkennung verfolgte Herr Receveur im Be-richtszeitraum weiter die Grundlagenforschung zu iterativen Verfahren der In-formationsfusion aus mehreren Signalquellen. Basierend auf eingehenden Vor-analysen von Methoden der iterativen Informationsfusion [DA 14/004] konntenzwei Arbeiten zur multimodalen (audio-visuellen) Turbo-Spracherkennung ver-öffentlicht werden [REC/SCHE/FIN1], [REC/MEY/FIN1]. Dabei war es möglich,die Wortfehlerrate um bis zu 32% relativ zu vermindern (siehe Abbildung 4,15 dB SNR). Im Weiteren wurden unterschiedliche Informationsfusionsstrategi-en in der audio-visuellen Spracherkennung näher beleuchtet [REC/FIN2]. Par-allel wurden in einer Masterarbeit [MA 14/007] iterative Multi-Modell-Ansätze(Fusion von Amplituden- und Phasenmerkmalen, Gender-Modelle) weiter voran-getrieben. Hierauf aufbauende Untersuchungen wurden im Rahmen eines Vor-trags am MIT (Massachusetts Institute of Technology) in Boston [REC/FIN3]vorgestellt.

Herr Meyer hat sich im Berichtszeitraum intensiv mit der Emotionserkennungauf der Basis von Sprachsignalen befasst. Ins Auge gefasste Anwendungsge-biete sind Call-Center (Anruferzufriedenheit, Stresserkennung beim Agenten)und die Transkription sozialer Interaktion in Teamarbeit oder Coachinggesprä-chen. Hierzu startete eine Zusammenarbeit mit den Instituten für Psychologieund Konstruktionstechnik zur Aufnahme von Teamsitzungen bestehend aus vierStudenten, zu der das IfN das Konzept der drahtlosen Akquise separater Teil-nehmeräußerungen mittels Bluetooth-Headset beisteuerte.

Ausgehend von früheren Arbeiten von Herrn Hummes am Institut für Nachrich-tentechnik hat Herr Meyer vor allem im Bereich der Annotation und der Evaluie-rung von Emotionen geforscht. Auf der Grundlage von psychologischen Studien,welche belegen, dass jeder Mensch Emotionen sowohl individuell ausdrückt alsauch unterschiedlich wahrnimmt, wurde ein Ansatz für eine „menschlichere“ An-notation und Evaluation für die automatische Emotionserkennung verfolgt. Da-

62

Page 9: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

0 5 10 15 20 25 3050

60

70

80

90

100

SNR [dB]

Acc

ura

cy[%

]

Turbo ASR: Start AudioTurbo ASR: Start VideoIt.ASR: Start AudioIt.ASR: Start VideoCHMM ASRAudio onlyVideo only

Abbildung 4: Erkennungsergebnisse einer audiovisuellen Spracherkennung in% word accuracy (%ACC) vs. SNR (dB): Bei der iterativen und derTurbo-Spracherkennung ist die jeweils als erste dem Erkenner zu-geführte Modalität als „Start Audio“ bzw. „Start Video“ bezeichnet;ASR = autom. Spracherkennung

bei konnte ein neues Bewertungsmaß, welches auf weichen Entscheidungen be-ruht, hergeleitet und veröffentlicht werden [MEY/FIN1]. Um den gesamten Klas-sifizierungsvorgang an das neue weiche Entscheidungsmaß anzupassen, wur-de für die im bestehenden System verwendete lineare Diskriminanzanalyse einKonzept für eine weiche Modifikation entworfen. Dieses ist zur Publikation inden IEEE Signal Processing Letters eingereicht worden.

4.5 Sprach- und Audio-Codierung bzw. -Decodierung

Im Berichtszeitraum hat Frau Han ihre Arbeiten einerseits zur Softdecodierungmaßgeblich weitergebracht, andererseits aber auch neuartige grundlegende De-codierprinzipien von skalar quantisierten Signalwerten mit Restkorrelation ent-wickelt.

Zu Beginn des Berichtszeitraums hat sich Frau Han mit der Soft-Decision-Decodierung für Codes mit variabler Codewortlänge (variable-length codes,VLCs) beschäftigt. Unter der Annahme, dass die Gesamtzahl der Bits und Sym-bole im Block bekannt ist, kann der sog. BCJR-Algorithmus unter Nutzung einerTrellis-Repräsentation für die Soft-Decision-Decodierung von VLCs (VLC/SD)genutzt werden. Der Trade-off von Soft-Decision-Decodierung mit fester Länge(fixed-length codes / soft decision, FLC/SD) und VLC/SD ist abhängig von derBitrate des Quantisierers, der Korrelation der Quellen und der Blocklänge. Die

63

Page 10: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

Auswertung zeigt, dass der VLC/SD-Ansatz dem FLC/SD-Ansatz für unkorre-lierte Quellen und kurze Blocklängen bei mittleren bis guten Kanalqualitätenüberlegen ist. Für korrelierte Quellen liefert der FLC/SD-Ansatz unter allen si-mulierten Bedingungen die besten Ergebnisse. Die Ergebnisse wurden auf derICASSP 2014 publiziert [HAN/FIN1].

Weiter hat sich Frau Han mit einer neuartigen Decodiermethode beschäftigt,welche die Effizienz von skalarer Quantisierung für korrelierte Prozesse verbes-sert. Da das Codebuch eines skalaren Lloyd-Max-Quantisierers (LMQ) typischer-weise einmalig festgelegt ist, kann die Redundanz der korrelierten Quellprozes-se oft nicht vollständig ausgenutzt werden. Unter Verwendung des Standard-LMQ-Encoders und eines optimierten Prädiktors auf der Empfangsseite kannein zeitlich adaptives Codebuch erzeugt werden. Das vorgeschlagene neue De-codierverfahren übertrifft den Standard-LMQ-Ansatz sowohl unter fehlerfreienals auch fehlerhaften Übertragungsbedingungen. Dies gilt vor allem für skalareQuantisierung mit niedrigen Bitraten und für stark korrelierte Prozesse, und istüberdies mit Standard-LMQ-Encodern kompatibel. Die Ergebnisse wurden aufder EUSIPCO 2014 [HAN/FIN2] und auf der ITG Fachtagung Sprachkommu-nikation [HAN/FIN3] publiziert. Unter Verwendung des unveränderten G.726ADPCM-Encoders und unter der Anwendung des dargestellten Prinzips auf denADPCM–Decoder bei 16 kbit/s hat sich die Sprachqualität gemessen mittelsPESQ um etwa 0,15 MOS-Punkte verbessert – und dies auch unter fehlerfrei-en Übertragungsbedingungen. Damit ist ein völlig neuartiges Decoderkonzeptfür die Decodierung korrelierter Medienströme gefunden.

5. Mustererkennung in arabischer Handschrift – HADARA-Projekt

Unser internationales DFG-Projekt befindet sich nunmehr im letzten Jahr derinsgesamt fünfjährigen Förderzeit. Der Schwerpunkt unserer Arbeiten im Be-richtszeitraum lag einerseits auf der Fertigstellung des Softwaresystems, wel-ches als Open-Source-Projekt veröffentlicht werden soll, andererseits auf derWeiterentwicklung der einzelnen Systemmodule. Zusätzlich war ein wichtigerPunkt das Bekanntmachen des HADARA-Projektes in den verschiedenen Fach-kreisen. So fanden z. B. Vorträge im Centre for the Study of Manuscript Cultu-res an der Universität Hamburg [PAN/MAE1], auf der Tagung „Möglichkeitender automatischen Manuskriptanalyse“ in Trier [MAE6], während der Konfe-renz „Archiving“ in Berlin [MAE5], der Konferenz „Soft Computing and PatternRecognition“ (SoCPaR) in Tunis [MAE7] und der Sommerschule „Computatio-nal Intelligence: Theory and Applications“ (CITA), ebenfalls in Tunis [MAE8],jeweils mit Beiträgen zum HADARA-Projekt, statt. Natürlich waren vielfälti-ge Projekttreffen notwendiger Bestandteil dieses Projektes. Darüber und überdas HADARA-System finden Sie weitere Informationen im Sonderbericht aufSeite 100. Weiterhin wurden im Berichtszeitraum ein Kapitel im „Handbook

64

Page 11: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

of Document Image Processing and Recognition“ editiert von Dave Doermannund Karl Tombre (gemeinsam mit Herrn El Abed [MAE1]) und zwei JournalPapers gemeinsam mit Dr. Ramirez und Dr. Ben Messaoud zur Binarisierung[MAE3], [MAE4] veröffentlicht. Eine weitere Veröffentlichung gemeinsam mitDr. Slimane zur Fonterkennung wurde auf dem Workshop „Document Analy-sis Systems“ (DAS) [SLIM/MAE1] präsentiert, und schließlich wurde der auf derICFHR-Konferenz 2012 ausgezeichnete Beitrag über die Datenbasis KHATT mitarabischen Texten zur Veröffentlichung in einem Journal eingeladen und jetztpubliziert [MAE2]. Im Folgenden werden die Forschungsschwerpunkte im Rah-men des HADARA-Projektes kurz dargestellt.

5.1 Handschrifterkennung und Word-Spotting

Einen Schwerpunkt unserer Forschung stellt die Erkennung arabischer Hand-schrift dar. Hier wurde ein umfangreiches Framework zum Modellieren, Trainie-ren, Validieren, Adaptieren und Testen von Handschrifterkennern auf Basis vonkontinuierlichen sowie semi-kontinuierlichen Hidden-Markoff-Modellen (HMM)entwickelt und als Modul integriert. Dazu wurde auch eine Masterarbeit zursemi-automatischen Transkription historischer handgeschriebener Dokumentedurchgeführt [MA 14/011] und es werden darin erste vielversprechende Ergeb-nisse präsentiert und zum Thema „Farbsegmentierung historischer Dokumente“wurde ein Beitrag auf der SoCPaR Konferenz vorgestellt [PAN/MAE2].

Ein weiteres Thema unserer Arbeiten war die Entwicklung von Word-Spotting-Verfahren, bei denen es darum geht, in Bildern von Textseiten nach Wörtern zusuchen, ohne dass eine Texttranskription der Seiten existiert. Für die Entwick-lung und Evaluierung segmentierungsfreier Word-Spotting-Ansätze für arabi-sche historische Manuskripte wurde ein Datensatz (HADARA80P) entwickeltund in einem Beitrag auf der Konferenz ICFHR (Int. Conf. on Frontiers of Hand-writing Recognition) dem Fachpublikum vorgestellt [PAN/FEC/MAE/FIN1]. DerDatensatz enthält neben dem eigens gescannten Manuskript aus dem 15. Jahr-hundert auch die Transkription und Annotation auf Wortebene, durchgeführtmit einer im Rahmen des Projektes entwickelten Software. Zu jedem Wort wur-den dabei die Koordinaten des umschließenden Polygons auf der jeweiligen Sei-te sowie die dazugehörige Transkription erfasst und verifiziert. Des Weiterenwurden mit einem neu entwickelten Word-Spotting-Ansatz, der auf einer Mo-difikation eines Verfahrens aus der Literatur beruht, erste Baseline-Ergebnisseerzielt und zusammen mit dem Datensatz veröffentlicht. Darüber hinaus wur-de mit diesem Verfahren an einem Word-Spotting-Wettbewerb im Rahmen derICFHR2014 teilgenommen, bei dem der dritte Platz belegt wurde.

65

Page 12: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

5.2 Schreibererkennung

Im Rahmen der Schreibererkennung für arabische Handschrift wurde die Mög-lichkeit der Identifikation von Schreibern in arabischen historischen Manuskrip-ten untersucht. Zu diesem Thema wurden unsere Forschungsergebnisse auf zweiinternationalen Konferenzen veröffentlicht. In dem ersten Beitrag für die Kon-ferenz ICPR (Int. Conf. on Pattern Recognition) wurden verschiedene Merkmals-extraktionsverfahren und Konzepte zur Klassifikation von mehrseitigen Manu-skripten vorgestellt [FEC/MAE/FIN1]. Verwendet wurden dabei globale Merk-male, welche aus lokalen Informationen zusammengesetzt sind. Es wurden aufKontur, Textur und auf sogenannten Keypoints basierende Verfahren miteinan-der verglichen. Experimente auf einer Datenmenge von 60 Manuskripten, wobeiteilweise mehrere von denselben Schreibern stammen, ergaben, dass sich insbe-sondere mit den Keypoint-basierten Merkmalen sehr gute Ergebnisse erzielenlassen. In einer weiteren Veröffentlichung zu diesem Thema bei der ICFHR ginges um den Fall der Rückweisung eines Manuskriptes mit unbekanntem Schrei-ber, zu dem in einer Referenzdatenmenge keine Manuskripte mit korrespondie-rendem Schreiber vorkommen [FEC/PAN/MAE/FIN1]. Mit Retrieval- und Klas-sifikationstechniken konnte ein Konzept zur Rückweisung von ebendiesen Ma-nuskripten mit unbekannten Schreibern realisiert werden. Bei der ICFHR2014wurde ebenfalls an einem Wettbewerb zur Identifikation von Schreibern in zeit-genössischen arabischen Handschriften teilgenommen. Hier gelang es uns, denzweiten Platz zu belegen.

Weitere Arbeiten zur Schreibererkennung wurden, basierend auf Gaussi-an Mixture Models (GMM), sowohl für zeitgenössische arabische als auchfür historische deutsche Texte erprobt und die Ergebnisse auf der ICFHRund der SoCPaR Konferenz einem internationalen Publikum präsentiert[SLIM/MAE3], [SLIM/MAE2]. Schließlich haben wir einen weiteren neuenAnsatz zur Schreibererkennung für lateinische Schriften in historischen Do-kumenten erprobt und in einem Vortrag bei der ersten deutschsprachigenAusgabe der Konferenz ”Digital Humanities” (DHd2014) in Passau vorgestellt[FEC/PAN/SLIM1]. Hier ging es darum, die Unterschiede zwischen verschie-denen Schreibern innerhalb eines Manuskriptes in lateinischen Schriften zuerkennen. Die Erkennung einzelner Schreiber mit Hilfe von Referenzschriftenwurde zusätzlich erläutert und es wurde ebenfalls auf die bereits erwähntenTechniken zur Schreibererkennung zurückgegriffen. Diesbezüglich zeigt Abbil-

dung 5 die Ergebnisse der Untersuchung eines Manuskriptes mit Bezeichnung63-Weiss. Dargestellt ist eine Matrix in 3D-Darstellung, in der die Unterschiedeeinzelner Seiten zu allen anderen Seiten des Manuskriptes mittels Distanzender Merkmalsvektoren visualisiert sind. Hierdurch lassen sich eindeutig dreiunterschiedliche Schreiber erkennen, wobei sich diese Beobachtung vollständig

66

Page 13: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

Abbildung 5: Untersuchung eines Manuskriptes (63-Weiss) mit mehreren unter-schiedlichen Schreibern

mit der von Experten deckt. Die Unterschiede der Schriften sind dabei so fein,dass sie für einen Laien nicht einfach zu erkennen sind.

6. Gedächtnismodellierung mittels ereigniskorrelierter Potentiale

Dieses interdisziplinäre Projekt findet in Kooperation mit Prof. Bruno Koppvon der Neurologischen Klinik der Medizinischen Hochschule Hannover (MHH)statt und bildet eine Schnittstelle zwischen Psychologie, Neurologie und Si-gnalverarbeitung. Herr Kolossa entwickelt und testet auf Basis von neuropsy-chologischen Hypothesen mathematische Modelle für die Vorhersage von inElektroenzophalografie-(EEG-)Signalen eines Menschen unterscheidbaren Kom-ponenten, sogenannten ereigniskorrelierten Potentialen (EKP).

Die im letzten Berichtszeitraum begonnene Untersuchung konnte erfolgreich ab-geschlossen und die Ergebnisse in einem Artikel bei der Fachzeitschrift Neuro-Image veröffentlicht werden [KOL/FIN1]. Abbildung 6 zeigt die Zusammenfas-sung der gewonnenen Erkenntnisse: Laut Stand der Wissenschaft stehen dieEKP-Komponenten P3a und P3b in direktem Zusammenhang mit dem Grad derÜberraschung eines Ereignisses, während die Komponente SW mit der Vorbe-reitung auf kommende Ereignisse assoziiert wird. Zusammen bilden diese drei

67

Page 14: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

Abbildung 6: Auf den menschlichen Schädel projizierte Evidenz für neuronaleKorrelate von auf dem Satz von Bayes basierenden Wahrschein-lichkeitsverteilungen (Gesicht oben, Ohren rechts/links)

EKPs den sogenannten späten positiven Komplex. Es wurden ein auf dem Satzvon Bayes basierendes Paradigma und Beobachtermodell für eine Wahrschein-lichkeitsschätzung entwickelt. Hierbei werden Kugeln aus unsichtbaren Urnengezogen und den Probanden gezeigt, wodurch die Kugeln Beobachtungen unddie Urnen nicht beobachtbaren Zuständen entsprechen. Mittels dieses Paradig-mas konnte gezeigt werden, dass die P3a die Aktualisierung von der a priori-auf die a posteriori-Wahrscheinlichkeitsverteilung der Urnen widerspiegelt. Ab-

bildung 6(a) zeigt die Verteilung der entsprechenden Modellevidenz auf demmenschlichen Schädel. Ihre Topographie entspricht der Erwartung für die P3a.Des Weiteren konnte gezeigt werden, dass die P3b direkt mit der Wahrschein-lichkeit der Beobachtung korreliert und räumlich von der P3a unterscheidbar ist,wie in Abbildung 6(b) zu sehen ist. Abbildung 6(c) zeigt die Evidenz für dieAktualisierung der Vorhersage der nächsten Beobachtung, deren räumliche Ver-teilung der SW entspricht. Teile der Ergebnisse wurden auf nationalen und in-ternationalen Konferenzen präsentiert [KOL/FIN2], [KOL/FIN3], [KOL/FIN4],[KOL/FIN5], [KOL/FIN6].

In Zusammenarbeit mit Prof. Bruno Kopp und Prof. Herbert Hoijtink von demInstitut Methodology and Statistics der Universität Utrecht wurde detaillierteruntersucht, auf welche Art a priori-Informationen über Wahrscheinlichkeitenvom Menschen verarbeitet werden. Es wurde ein gemeinsamer Artikel verfasstund bei der Fachzeitschrift Psychophysiology eingereicht.

Herr Kolossa verfasst seine Dissertation über die Ergebnisse dieses Projektes. Esist gelungen, den Stand des Wissens zu ereigniskorrelierten Potentialen (EKPs)deutlich zu erweitern und fundamentale Evidenz für die Theorie des Bayesia-nischen Gehirns zu finden. Kern dieser Theorie ist es, dass im menschlichenGehirn Bayessche Wahrscheinlichkeiten berechnet werden. Erstmals konnte eineinzelnes auf dem Satz von Bayes basierendes Beobachtermodell erstellt wer-den, anhand dessen alle drei Komponenten des späten positiven Komplexes inihrer Funktion dissoziiert werden konnten. Insbesondere wurde die sogenannte

68

Page 15: Abteilung Signalverarbeitung für die ... · weiteren thematischen Schwerpunkt bilden rekursive MMSE-Schätzverfahren: Zum einen werden die Forschungsfelder Störgeräuschreduktion

Neue Erwartungstheorie, die die Modellierung der menschlichen Entscheidungs-findung in unsicheren Situationen beschreibt, erfolgreich mit Modellen zur Vor-hersage von EKPs kombiniert. Dies hat weitreichende Implikationen für die bis-herige Forschung auf beiden Gebieten, wodurch sich Hypothesen und Fragestel-lungen für zukünftige Projekte in dieser Thematik ergeben. Mit dem aktuellenBerichtszeitraum endet dieses Projekt.

69