108
NEUROBIOLOGISCH INSPIRIERTE LOKALISIERUNG VON SPRECHERN IN REALEN UMGEBUNGEN axel plinge korrigierte Version November 2010 Diplomarbeit Fakultät für Informatik in Zusammenarbeit mit dem Institut für Roboterforschung Technische Universität Dortmund

NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Embed Size (px)

Citation preview

Page 1: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

N E U R O B I O L O G I S C H I N S P I R I E R T EL O K A L I S I E R U N G V O N S P R E C H E R N

I N R E A L E N U M G E B U N G E N

axel plinge

korrigierte VersionNovember 2010

Diplomarbeit

Fakultät für Informatikin Zusammenarbeit mit dem

Institut für Roboterforschung

Technische Universität Dortmund

Page 2: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Axel PlingeNeurobiologisch inspirierte Lokalisierung vonSprechern in realen Umgebungen

Diplomarbeit

korrigierte Version vom November 2010

gutachter :Dipl.-Inf. Marius HenneckeProf. Dr.-Ing. Gernot A. Fink

Page 3: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Kurzbeschreibung

Die robuste Lokalisierung von Sprechern in realen Umgebungen ist ei-ne Aufgabe für viele Anwendungen in modernen, „intelligenten Um-gebungen“. Ein typisches Szenario ist ein Gruppengespräch in einemKonferenzraum, in welchem die Signale durch Hall gestört sind. Hier-für wurde ein Verfahren entwickelt, das mit der pragmatischen Kom-bination von Wissen aus technischer und biologischer Forschung Spre-cher lokalisiert. Mit der Integration von Modellen der Neurobiologieund Kognitionspsychologie wird das natürliche Vorbild in Form vonaktuellen Forschungsergebnissen zur menschlichen Verarbeitung vonSprache verwendet. Gleichzeitig werden durch Verwendung eines Mi-krophonarrays technische Vorteile genutzt. Zur Evaluierung werdenneben Simulationen insbesondere auch Daten aus realen Aufnahmenverwendet. Das Ergebnis der Arbeit ist zum einen ein echtzeitfähigesLokalisierungsverfahren mit sehr robusten Merkmalen für reale An-wendungen; zum anderen ist der innovative Brückenschlag zwischenden verschiedenen Disziplinen eine Basis für weitere interessante For-schungsvorhaben.

Abstract

The robust localization of speakers is an important task in many mod-ern intelligent surroundings. A prominent scenario is a discussion ina conference room. Here, reverberation distorts all acoustic measure-ments. For such environments a system was developed, which local-izes speakers in real time by pragmatic combination of results fromtechnical, psychological and biological research. By integrating neuro-biological models and theories of cognitive psychology, recent resultsin our understanding of human hearing are used. Technical advan-tages are gained by use of a microphone array for signal input. Thesystem was refined and tested in simulated and real environments.The result of this work is not only in a robust, real-time-capable lo-calization solution, but also an innovative bridge between interdisci-plinary fields that manifests a basis for many interesting directions ofresearch.

Page 4: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 5: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

I N H A L T S V E R Z E I C H N I S

1 Einleitung 1

1.1 Vorhaben 2

1.2 Struktur der Arbeit 3

2 Hintergrund 5

2.1 Sprachproduktion 6

2.1.1 Phone in flüssiger Sprache 6

2.1.2 Artikulation 7

2.1.3 Source-Filter-Modell 7

2.1.4 Lautklassen 8

2.2 Schallausbreitung, Raumakustik und Aufnahme 9

2.2.1 Schallausbreitung 9

2.2.2 Hall 10

2.2.3 Mehrere Sensoren 11

2.3 Menschliches Hören 14

2.3.1 Kopfbezogene Übertragungsfunktion 14

2.3.2 Reizaufnahme 15

2.3.3 Neurale Kodierung 16

2.3.4 Frühe neuronale Verarbeitung 19

2.3.5 Höherstufige Neuronale Sprach-Verarbeitung 20

2.3.6 Abstraktion und Aufmerksamkeit 21

2.4 Auditorische Szenenanalyse 22

2.4.1 Szenenanalyse 22

2.4.2 Gruppierung und Segregation 23

2.4.3 Verarbeitungsmodell für Sprache 24

3 Stand der Technik 29

3.1 Technische Lokalisierung 29

3.1.1 Indirekte Lokalisierung 29

3.1.2 Korrelationsbasierte Lokalisierung 30

3.1.3 Kombination mehrerer Mikrophonpaare 31

3.2 Lokalisierung mehrerer Quellen 32

3.2.1 Eigenwertverfahren 32

3.2.2 Gauß’sche Mischverteilung und Kurzzeitcluster 34

3.3 Modelle binauralen Hörens 35

3.3.1 Gammaton-Filterbank 35

3.3.2 Neuronale Kodierung 37

3.3.3 Korrelation 37

3.4 Bilogistische Lokalisierung 39

3.4.1 Kunstkopf 39

3.4.2 Salienz und humanoide Roboterohren 40

3.4.3 Sprecherverfolgung 41

3.5 Spracherkennung 42

3.5.1 Merkmale für robuste Spracherkennung 43

3.5.2 Einkanalige Sprechertrennung 44

3.5.3 Nulldurchgangsbasierte Trennung 44

3.5.4 Korrelationsbasierte Trennung 46

4 Neuro-Fuzzy-Lokalisierung 47

4.1 Verarbeitungsstruktur 47

iii

Page 6: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

4.2 Signalaufnahme 48

4.2.1 Mikrophonarray 48

4.2.2 Platzierung 49

4.3 Cochlea-Modell 49

4.3.1 Filterbank 50

4.3.2 Impulserzeugung 51

4.4 Modell neuronaler Korrelation 53

4.4.1 Aliasing 53

4.4.2 Impulskorrelation 54

4.5 Rückprojektion und Kombination 54

4.5.1 Rückprojektion 54

4.5.2 Kombination 56

4.6 Lokalisierung von Sprechern 58

4.6.1 Zeitliche Mittelung 58

4.6.2 Zusammenfassen der Frequenzbänder 58

4.6.3 Peaklokalisierung 60

4.7 Zusammenfassung 61

5 Evaluierung 63

5.1 Daten 63

5.1.1 Simulierter Konferenzraum 63

5.1.2 AV16.3-Korpus 64

5.1.3 FINCA 64

5.2 Systemkomponenten 65

5.2.1 Impulserzeugung und Korrelation 65

5.2.2 Rückprojektion und Kombination 66

5.2.3 Kombinationsverfahren 68

5.3 Lokalisierung je Zeitfenster 68

5.3.1 Impulserzeugung 71

5.3.2 Hamacher-t-Normen 72

5.3.3 Modulationsdetektion 73

5.4 Integration über die Zeit 73

5.4.1 Sprach- und Hallmodell 74

5.4.2 Lokalisierung gleichzeitiger Sprecher 75

5.5 Anwendung in realen Konferenzraumszenarien 76

5.5.1 AV16.3-Sequenz 1: Einzelner Sprecher 77

5.5.2 FINCA-Sequenz 1: Einzelner Sprecher 78

5.5.3 FINCA-Sequenz 2: Diskussion am Tisch 80

5.5.4 FINCA-Sequenz 3: Gleichzeitige Sprecher im Raum 80

6 Fazit 83

6.1 Zusammenfassung 83

6.2 Bewertung 84

6.3 Einsatzgebiete und Weiterentwicklungen 84

a Implementierung 87

a.1 Laufzeitoptimierung 87

a.2 Werkzeuge 88

verzeichnisse 91

Abbildungsverzeichnis 91

Tabellenverzeichnis 92

Algorithmenverzeichnis 92

Literaturverzeichnis 92

iv inhaltsverzeichnis

Page 7: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

A K R O N Y M E

ASA Auditory Scene Analysis

CASA Computational ASA

CGM Corpus Geniculatum Medium, mittlerer Kniehöcker

CN Cochlea Nucleus

CRLB Cramer-Rao Lower Bound

EM Expectation Maximization

ERB Equal Resonance Bandwidth

FFT Fast Fourier Transform

FFTW Fastest Fourier Transform in the West, „somewhat whim-sical title“ einer FFT Bibliothek

FIR Finite Impulse Response, ein Filtertyp

FINCA a Flexible, Intelligent eNvironment with ComputationalAugmentation

GCC 1) GNU Compiler Collection2) Generalized Cross Correlation

GNU GNU is Not Unix

HMM Hidden Markov Model

HRTF Head Related Transfer Function

IC Inferior Coculli

IID Interaural Intensity Difference

IIR Infinite Impulse Response, ein Filtertyp

IRF Institut für Roboterforschung

ISM Image-Source Model, Reflexionsmodell für Hall

ISD Interaural Spectral Difference

ITD Interaural Time Difference

LSO Lateral Superior Olive, seitlicher Teil des SOC

MFCC Mel Frequency Cepstral Coefficients

MSO Medial Superior Olive, mittlerer Teil des SOC

NCCF Normalized Cross Correlation Function

OpenMP Open MultiProcessing. Ein Standard zur Nutzung vonMulticore CPUs

PHAT Phase Transform

PoA Peak over Average

PoAP Peak over Average Position

RIR Room Impulse Response

RMS Root Mean Square

SLF Spatial Likelihood Function

SOC Superior Oliveary Complex, oberer Olive

SRP Steered Response Power

TDOA Time Delay Of Arrival

WER Word Error Rate

akronyme v

Page 8: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

N O T A T I O N

r ein Skalar

a ein Vektor (x0, . . . xn−1)T

A eine Matrix

x(t) eine kontinuierliche Funktion

x[t] ein diskretes Signal

X[ f ] ein diskretes Spektrum

xn ein Folgenwert

ı die imaginäre Einheit

‖ · ‖ Euklidischer Abstand

(·)∗ komplexe Konjugation

(·)T Transposition

(·)H Hermitische Transponsition, die Transponierte deskomplex-konjugierten Vektors

E{·} Erwartungswert

N (µ, σ) Normalverteilung mit Mittelwert µ und Standardab-weichung σ

a[t] ⊗ b[t] diskrete Faltung

F{·}, F−1{·} Fourier-Transformierte und ihre Inverse

x(t) ◦−• X(ω) Korrespondenz, x im Zeitbereich entspricht X imFrequenzbereich

X(ω) •−◦ x(t) Korrespondenz, X im Frequenzbereich entspricht xim Zeitbereich

/x/ SAMPA Lautschrift /s'AmpAl'AutSRIft/

vi notation

Page 9: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

1E I N L E I T U N G

Die faszinierende Fähigkeit des Menschen, aus der Schwingung zweierTrommelfelle eine reichhaltige Repräsentation der Außenwelt zu kon-struieren, ist bereits seit über einem halben Jahrhundert Motor viel-fältiger Forschung. Eine besonders bemerkenswerte Leistung ist dasVerstehen eines Gesprächspartners bei Umgebungslärm, Hall und wei-teren gleichzeitigen Sprechern.

Die psychoakustische und kognitionspsychologische Forschung hat Kognitions-psychologiedie menschliche Verarbeitung von Wahrnehmungsinhalten mit einer

großen Zahl von Hörversuchen untersucht. Die Separation des Gehör-ten in Ströme (streams) verschiedener Quellen über die Zeit ist zentra-ler Bestandteil der Theorie der auditorischen Szenenanalyse (AuditoryScene Analysis, ASA) von A. Bregmann [Bre90]. Neben der Bildung von ASA

Merkmalen und den Regeln ihrer Verknüpfung spielt auch immer dieInterpretation der Signale sowie die Rekonstruktion fehlender Infor-mation mittels Kontext und je eines Sprach- und Sprechermodells eineRolle. Theorien wie das glimpsing model [Coo06] erklären das Sprach- glimpsing model

verstehen bei starken Störungen nicht per regelgeleiteter Merkmals-kombination, sondern vielmehr als nachträgliche Interpretation undZuordnung einiger weniger klarer Sprachelemente.

Der psychoakustische Aufbau des Ohres ist inzwischen gut erforscht Psychoakustik

und in Modellen, zum Beispiel für Musikkompression in MPEG Au-dio, umgesetzt [Bra89]. Die neuronale Merkmalsextraktion entlang der Neurobiologie

auditory pathways ist Gegenstand neurobiologischer Untersuchungen,die Funktionen und das Wechselspiel der beteiligten Hirnareale sindnur zum Teil bekannt. Insbesondere für das Hören bei Hall existiert bisheute kein einheitliches Modell [PZSR+07]. Die hohe Komplexität undIndividualität des Gehirns erschwert eine analytische Untersuchungder Mechanismen. Bei der Sprachwahrnehmung sind weitere Hirna- Sprache

reale beteiligt, welche unter anderem die räumliche Repräsentation,den Inhalt und die Erzeugung von Sprache betreffen [Sco05].

In den letzten Jahren haben sich einige Implementierungen heraus- Computermodelle

gebildet, welche die Fähigkeiten des menschlichen Gehirns bei derSprachverarbeitung unter Verwendung von neurobiologischen Model-len und Konzepten der ASA nachahmen [WB06]. Die Übertragung des CASA

evolutionär optimierten menschlichen Hörapparates in ein Computer-modell erzielt dabei mitunter beachtliche Ergebnisse. Bislang existie-ren jedoch sehr wenige erfolgreiche Anwendungen in realen Umge-bungen mit signifikantem Hall, wie etwa einem typischen Konferenz-raum. Demgegenüber existieren eine ganze Reihe technischer Loka- technische

Lokalisierunglisierungslösungen mit Mikrophonarrays [BW01], welche trotz Störun-gen und Hall beachtliche Genauigkeit erzielen. Die hier angewendetenVerfahren stammen zum Teil aus der Radartechnik und nehmen nurselten Rücksicht auf die Natur des zu ortenden Signals. Für Einsatz inrealen Umgebungen muss hier eine Sprache-Nichtsprache-Unterschei-dung ergänzt werden. In den letzten Jahren gab es erste Versuche, dietechnischen und biologischen Lokalisierungsansätze in einem hybri- hybride Verfahren

den Verfahren zu vereinen [SGK+08].

1

Page 10: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

1.1 vorhaben

Hier setzt auch die vorliegende Arbeit an. Für die robuste Lokalisie-rung von Sprechern in realen Umgebungen wird ein hybrides Verfah-ren mit der pragmatischen Kombination von neurobiologischen undhybrides Verfahren

kognitionspsychologischen Modellen mit technischen Methoden ent-wickelt. Als typischer Anwendungsfall wird ein Gruppengespräch ineinem Konferenzraum ausgewählt. Hier erschwert vor allem der HallHall

die Lokalisierung.Um technische Möglichkeiten dort zu nutzen, wo sie Vorteile bringen,wird von der menschlichen Physiologie Abstand genommen. Anstel-le eines (Kunst-)Kopfes mit zwei Sensoren wird ein auf dem Tischpositioniertes zirkuläres Mikrophonarray aus acht Mikrophonen ver-zirkuläres

Mikrophonarray wendet wie in Abbildung 1 skizziert. Die Lokalisierung wird durch ei-ne Rückprojektion der Ankunftszeitdifferenzen zwischen Mikrophon-TDOA

signalen in Sprecherwinkel vorgenommen. Neurobiologische Model-le der Cochlea und der lokalisierenden Verarbeitung in den auditoryNeurobiologische

Modelle pathways werden eingesetzt und an die Verwendung von mehr alszwei Sensoren angepasst. Dabei wird besonders auf die Berechnungrobuster Merkmale Wert gelegt und auf effiziente Berechenbarkeit ge-achtet. Es werden biologische wie technische Strategien zum Umgangmit Hall untersucht. Um Sprachenergie im Zeit×Winkel-Raum zu lo-Zeit×Winkel

Lokalisierung kalisieren, wird eine zusammenfassende Nachverarbeitung basierendauf Sprachwahrnehmungs- und Sprachmodellen eingesetzt.Die Entwicklung und Optimierung des Systems geschieht zum Teil mitsimulierten Szenarien mit vorgegebenen Eigenschaften. Das Systemwird auch auf realen Aufnahmen aus Konferenzraum-Korpora undEvaluierung in

realen Umgebungen mit eigenen Aufnahmen im intelligenten Konferenzraum der FINCA[Plö07] getestet.

Abbildung 1.: Konferenzszenario: Die Sprecher an einem Konferenztisch werden durch das zirkuläre Mikro-phonarray auf demselben lokalisiert.

2 einleitung

Page 11: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

1.2 struktur der arbeit

Die Arbeit gliedert sich in sechs Kapitel. Die Einleitung führt in dieThematik ein und skizziert die zu lösende Aufgabe. Im zweiten Ka-pitel wird die interdisziplinäre Basis in Form von Erkenntnissen der(Neuro-)Biologie, Kognitionspsychologie und Physik dargestellt. Vordiesem Hintergrund werden im dritten Kapitel existierende Modelleund Algorithmen aus der aktuellen Forschung in der (Neuro-)Infor-matik dargestellt. Im vierten Kapitel werden das entworfene Verfahrenund die implementierte Verarbeitung im Detail beschrieben. Das fünf-te Kapitel schildert die zur Evaluierung durchgeführten Experimentemit ihren Ergebnissen. Im sechsten Kapitel wird eine Bewertung derImplementierung und der damit durchgeführten Experimente abgege-ben. Ein Ausblick auf mögliche weitere Arbeiten schließt diese Arbeitab.

1.2 struktur der arbeit 3

Page 12: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 13: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

2H I N T E R G R U N D

Die in dieser Arbeit erstellte Implementierung basiert auf Wissen ausden Bereichen Psychophysik, Neurobiologie, Kognitionspsychologieund Akustik. Dieses Kapitel dient der Erläuterung relevanter Erkennt- interdisziplinärer

Hintergrundnisse in diesen Wissenschaften. In den folgenden Abschnitten wird dasSprachsignal von seiner Entstehung über seine Ausbreitung im Raumbis zur Aufnahme im menschlichen Ohr und schließlich der Interpreta-tion des Gehörten im Gehirn verfolgt, wie in Abbildung 2 dargestellt.

Für menschliche wie maschinelle Verarbeitung sind Informationenüber die Natur des Signales wichtig und Grundlage für die Verar-beitungsstrukturen und Heuristiken [RS78, All94]. Daher werden die Sprechen

Sprachproduktion und die daraus folgenden charakteristischen Eigen-schaften des Sprachsignales im ersten Abschnitt (2.1) kurz erläutert.

Der physikalische Hintergrund der Schallausbreitung und Aufnahmewird im nächsten Abschnitt (2.2) kurz dargestellt. In einem Innenraum Raumakustik

entsteht durch Reflexionen Hall [Kut00]. Statt sich auf zwei Ohrenzu beschränken, können bei der technischen Aufnahme von Signalenmehrere Mikrophone verwendet und geeignet zusammengefasst wer-den, um die Signalqualität zu erhöhen [BW01].

Im folgenden Abschnitt (2.3) wird der aktuelle Wissensstand der Psy-choakustik und Neurologie über das Hören von Sprache charakteri-siert. Der Vorgang der Schallaufnahme bis zur neuronalen Kodierung Hören

ist im wesentlichen durch den physiologischen Aufbau des Hörappa-rates determiniert und somit beinahe identisch für alle Menschen unddie meisten Säugetiere [GM00]. Die sensorischen Mechanismen sindheute weitgehend erforscht und in psychoakustischen Modellen nach-gebildet, welche die Grundlage für die verlustbehaftete Audiokodie- psychoakustische

Modellerung in Ogg Vorbis und MPEG Audio bilden [Bra89, Lin98]. Demgegen-über ist die kognitive Verarbeitung bei Menschen kontext- und erfahr-ungsabhängig. Sie ist Gegenstand aktiver Forschung; die Hirnfunktio-nen sind nur teilweise bekannt [GM00]. Bei der Sprachwahrnehmungsind verschiedene Hirnareale beteiligt, deren genaues Zusammenspielbis heute nicht eindeutig geklärt ist [Sco05].

Aus der Black-Box Perspektive wurden seit den 50er Jahren eine gan-ze Reihe kongnitionspsychologischer Experimente durchgeführt. Ei- kongnitions-

psychologischeExperimente

ne umfassende Beschreibung des Hörens verfasste Handel mit demBuch Listening [Han89]. Zur Leistung des menschlichen Hörens zogBregmann in dem einflussreichen Buch Auditory Scene Analysis [Bre90](ASA) weitreichende Parallelen zu Theorien visueller Wahrnehmungund Aspekten der Gestalttheorie. Diese Theorie liefert auch eine dergriffigsten Bescheibungen für die menschliche Fähigkeit, einer Person Cocktail Party

in einem Stimmengewirr mit vielfältigen Störungen zuzuhören: den1953 so benannten Cocktail-Party-Effekt [Che53]. Der kognitionspsycho-logischen Theorie der ASA wird ein eigener Abschnitt (2.4) gewidmet, ASA

da sie vielen biologisch inspirierten Computermodellen, ebenso wieauch der vorliegenen Arbeit, als Grundlage dient.

5

Page 14: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 2.: Sprachproduktion und -erkennung bei Menschen in Anlehnung an [RS78].Der Sprecher (links) formuliert eine Nachricht. Diese wird im Gehirn in gesprochene Spra-che in Form einer Folge von Phonemen und prosodischer Merkmale umgesetzt. Daraus wirdeine motorische Kodierung in Bewegungsanweisungen erstellt, welche die Artikulation mit-tels Lunge, Stimmbändern und oberem Vokaltrakt steuern (Abschnitt 2.1). Die so produzierteSchallwelle verlässt den Mund und breitet sich im Raum aus, wo sie u.U. reflektiert wird,bis sie den Hörer erreicht (Abschnitt 2.2). Die Bewegung der beiden Tromellfelle wird in denCochleas des Hörers (rechts) von mechanischer Bewegung in elektrische Impulse umgesetzt(Abschnitt 2.3.2ff.). Die Impulse werden in Merkmale umkodiert (Abschnitt 2.3.4). Durch neu-ronale Mustererkennung werden Phoneme zugeordnet, der Text der Nachricht wird dekodiertund schließlich verstanden (Abschnitt 2.3.6). Der Hörprozess wird auch durch die Theorie derASA beschrieben (Abschnitt 2.4).

2.1 sprachproduktion

Natürliche Sprache wird durch die Artikulation von Lauten erzeugt.Um die Sprache zu charakterisieren, wird selbige hier kurz erläutert.Schematisch wird die Lauterzeugung mit dem Source-Filter-Modellbeschrieben. Die wesentlichen aus der Artikulation ableitbaren Lautei-genschaften und Lautklassen beschließen diesen Abschnitt.

2.1.1 Phone in flüssiger Sprache

Perzeptiv unterscheidbare Sprachlaute werden als „Phone“, bedeu-Phon 6= Phonem

tungsunterscheidende als „Phoneme“ bezeichnet. Die Phone lassensich Anhand ihrer Erzeugung in Klassen einteilen. Phone treten in na-türlicher Sprache nicht isoliert auf, sondern werden vielmehr grund-sätzlich durch den Kontext des vorhergehenden und folgenden Lau-tes beeinflusst. Dem wird in automatischen Spracherkennungs- undSprachsynthesesystemen damit Rechnung getragen, dass nicht einzel-ne Phone, sondern Triphone die modellierenden Bausteine der Spra-che bilden. Ein Triphon ist ein Modell eines zentralen Lautes mit demTriphone

Übergang zu seinem Vorgänger und Nachfolger [Fin03, ST95]. Entge-gen der graphemischen Repräsentation von geschriebener Sprache, inder jedes Graphem weitgehend isoliert erkennbar ist, erfolgt die Arti-kulation von Phonen kontinuierlich. Die im folgenden beschriebenenklassentypischen Zustände des Artikulationsapparates werden in flüs-siger Sprache oft nur kurzzeitig gerade solange und so deutlich ange-

6 hintergrund

Page 15: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 3.: Röhrenmodell der Sprachproduktion [Han89, S. 140] Der Vokaltrakt wird durch eine Folge vonRöhren unterschiedlichen Durchmessers modelliert. Aufgrund dieser ergeben sich Resonanzenund damit die spektrale Energieverteilung.

nommen, dass ein Hörer diese gerade eben identifizieren kann. Derweitaus überwiegende Teil des Sprachsignales besteht aus Übergän-gen, die ihrerseits aus muskulären Übergängen des Artikulationsappa-rates resultieren.

2.1.2 Artikulation

Die Produktion eines Sprachlautes durch den Menschen lässt sich invier Schritte gliedern: Erstens das Ausströmen eines Luftstroms ausden Lungen, zweitens die Modulation desselben durch die Stimmbän-der und Verwirbelungen, drittens die Artikulation durch eine bestimm-te Konfiguration des Mund- und Nasenraumes und schließlich die Ab-strahlung des Schalles an den Lippen [Han89, S. 135ff.].

Zur Artikulation eines Sprachlautes oder Phons wird Luft aus der Lun-ge gepresst. Werden die Stimmbänder in Schwingungen versetzt, sobewirkt das Öffnen und Schließen eine regelmäßige Modulation desLuftstromes und somit des erzeugten Druckes. Das modulierende Or-gan aus den Stimmbändern und dem Raum dazwischen wird als Glot-tis bezeichnet. Die Wiederholzeit T0 zwischen zwei Verschlüssen derGlottis nennt man Stimmtonhöhe, engl. pitch. Die Luft durchströmtdann Mund- und Nasenraum und verlässt dann den Mund an den Lip-pen. Je nach Stellung der Zunge, des Kiefers und der Lippen werden Vokaltrakt

verschiedene Resonanzen erzeugt, welche die Klangfarbe des erzeug-ten Lautes ändern. Die Gesamtheit von Glottis, Rachen, Mund undNasenraum bis zu den Lippen bezeichnet man bei Säugetieren als denVokaltrakt.

2.1.3 Source-Filter-Modell

Der Artikulationsprozess kann durch ein Source-Filter-Modell be-schrieben werden. Dabei wird das Signal aus der Glottis als Quellsi-gnal und der obere Teil des Vokaltraktes als Filter betrachtet. Das Filterwird wie in Abbildung 3 dargestellt als Folge von Röhren wechselndenDurchmessers modelliert; daher wird auch der Name Röhrenmodell Röhrenmodell

verwendet. Das Anregungssignal kann man hier als additive Kombi-nation einer stimmhaften oder tonalen Komponente v und stimmlo-sen oder Rauschkomponenten n formulieren. Das vom Röhrensystemt gefilterte Signal ergibt sich so mit einem diskreten Zeitindex i als

x[i] = (v[i] + n[i]) ⊗ t[i]. (2.1)

2.1 sprachproduktion 7

Page 16: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Die Faltung geht dabei nach einer z-Transformation in eine Multipli-kation über:

X[z] = (V[z] + N[z])T[z]. (2.2)

Dieses Modell bildet auch die Grundlage für die Anwendung der linea-ren Vorhersage (LPC) bei der Sprachkodierung [GM00, S. 280-291]. Die-Sprachkodierung

se findet in verschiedenen Algorithmen zur verlustbehafteten Sprach-kompression Anwendung, die etwa bei Voice-over-IP-Telefonie oderGSM-Mobiltelefonen verwendet werden [GM00, S. 474-489] [Ata06].Frühe Sprachsynthesizer und Vocoder basierten ebenfalls auf demSource-Filter-Modell [GM00, S. 395-402, 431-449]. Heute sind diese fastnur noch im akademischen Umfeld zu finden. Maschinelle Sprachsyn-these wird heute nahezu ausschließlich durch das Aneinanderreiheneinzelner, kurzer Sprachsegmente aus der Aufnahme eines realen Spre-chers realisiert. Dabei werden Segmente vom Umfang weniger Pitch-Sprachsynthese

perioden mit Verfahren der Zeitdehnung und -stauchung sowie Über-blendung nach abgespeicherten prosodischen Regeln zu einem Sprach-signal mit kontinuierlichem Pitchverlauf kombiniert [GM00, S. 403-405]. So ist qualitativ hochwertige Sprachsynthese mit vergleichswei-se geringem Rechenaufwand und güstiger Hardware z.B. in Auto-Navigationssystemen realisierbar.

2.1.4 Lautklassen

Die Phonetik unterteilt Sprachlaute anhand ihrer Erzeugung in Klas-sen [Han89, S. 141ff.]. Stimmhafte Laute, die wesentlich durch regel-mäßige, stimmhafte Anregung erzeugt werden, sind vor allem die Vo-kale und Nasale. Die Vokale /a/, . . . , /i/ unterscheiden sich primärVokale

durch die Resonanzen im Vokaltrakt, welche sich durch unterschiedli-che Stellungen der Zunge ergeben. Die stark ausgeprägten spektralenEnergiemaxima werden als Formanten bezeichnet. Wesentlich für dieFormanten

Lautunterscheidung sind hier insbesondere die stärksten beiden For-manten, welche im Bereich von 0.2 − 0.8 kHz und 0.4 − 3.2 kHz liegen.Sie werden oft auch kurz mit F1 und F2 bezeichnet. Diese führen un-abhängig von der Anregung zu einer klaren Einteilung in Lautklassen.Bei einem gehauchten oder geflüsterten Vokal wird der Vokaltrakt beiidentischer Stellung durch einen unmodulierten Luftstrom angeregt.Bei den Nasalen /m/, /n/ wird der Nasenraum zur Abstrahlung be-Nasale

nutzt, was zu einem breiten niedrigen spektralen Energiemaximum,dem sogenannten nasal bar führt.Laute, deren Charakter wesentlich durch eine Rauschkomponente be-stimmt wird, die durch Reibung im Mundraum erzeugt wird, bezeich-net man als Frikative (Reibelaute). Wichtige stimmlose Frikative in derFrikative

deutschen Sprache sind etwa /s/ wie in Sieb, /f/ wie in Fisch oder/S/ wie in Schall. Werden zusätzlich die Stimmbänder eingesetzt sowerden stimmhafte Frikative wie /z/ wie in Sonne oder /w/ wie instimmhafte

Frikative Wasser erzeugt. Das stimmhafte wie auch das stimmlose s (/z/, /s/)nehmen unter den Lauten eine Sonderrolle ein, da diese mit einemspektralen Schwerpunkt von 5 − 7 kHz als einzige Laute neben dem/t/ wesentliche Merkmalsenergien jenseits von 4 kHz aufweisen.Die stimmlosen und stimmhaften Plosive (Verschlusslaute) /t/, /p/und /k/ sowie /b/, /d/ und /g/ bilden eine weitere Klasse. Diese sindPlosive

durch eine 10− 100 ms lange Verschlusspause (closure) gekennzeichnet,

8 hintergrund

Page 17: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

auf welche ein explosiver Luftauslass (burst) folgt [Hel93]. Plosive wer-den nicht ohne den Kontext eines zweiten Lautes artikuliert, bei derKoartikulation mit einem vokalischen Laut kommt es zu typischen,merkmalstragenden Formantübergängen (formant transitions). Die Plo-sive werden in indoeuropäischen Sprachen für die Segmentierung desSprachstromes durch den Hörer verwendet. Die fehlerfreie Unterschei-dung zwischen einzelnen Plosiven gelingt auch menschlichen Hörernnur unter optimalen Bedingungen oder durch den Satzkontext [GM00,S. 228-235].

2.2 schallausbreitung , raumakustik und aufnahme

Der Schall, also auch das Sprachsignal eines menschlichen Sprechers,wird als kugelförmige Druckwelle abgestrahlt. Die Druckveränderun-gen können von einem Sensor wie etwa einem Mikrophon oder einemmenschlichen Ohr an der Position mn aufgenommen werden. Im Fol-genden werden kurz die physikalischen Eigenschaften der Schallaus-breitung, des Halls und der Eigenschaften der Messung mit mehrerenSensoren beschrieben.

2.2.1 Schallausbreitung

Schall breitet sich kugelförmig von seiner Quelle q aus. Nach der ther-mischen Zustandsgleichung ist die Geschwindigkeit

c =

κRKM

≈√

402 · K, (2.3)

abhängig von der Temperatur K in Kelvin. Dabei bezeichnet κ denAdiabatenexponenten, R die Gaskonstante und M die molare Massevon Luft [Boh88]. Die Zeit

T(q, mn) =‖q −mn‖

c, (2.4)

welche der Schall von der Quelle an Position q zu einem Sensor mn

benötigt, ist linear vom Abstand der beiden abhängig. Die Amplitude

A(q, mn) =A0

‖q −mn‖(2.5)

der Schallwelle nimmt reziprok linear mit der Entfernung ab, dabei istA0 die Amplitude an der Quelle [Täg98]. Die Überlagerung mehrererSchallquellen erfolgt dabei linear in der Amplitude, so dass sich diesein der Betrachtung addieren lassen. Insgesamt ergibt sich das Signal Linearkombination

yn(t) = ∑qi

A(qi, mn) xi(t − T(qi, mn)) (2.6)

am Sensor mn als Summe der Signale xi(t) von Positionen qi.

2.2 schallausbreitung , raumakustik und aufnahme 9

Page 18: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 4.: Schallausbreitung im Raum: Von der Quelle qi kugelförmig abgestrahlte Druckwellen treffenauf direktem Wege bei den Sensoren mn und mn ein. Dazu kommen vielfältige Wege über dieReflexion an den Wänden.

2.2.2 Hall

In Innenräumen kommt es durch die Reflexion der Schallwelle anWänden und Objekten im Raum zum verzögerten, gedämpften Ein-treffen des Schalles auf indirektem Wege von der Quelle zum Empfän-ger – dem Hall. In Abbildung 4 sind neben dem direkten Schallweg(durchgezogene Linien) exemplarisch indirekte Schallwege (gestrichel-te Linien) zwischen Quelle und Sensoren eingezeichnet.

Raumsimulation

Nimmt man zu jeder Reflexion an einer Fläche Sk einen bestimmtenDämpfungsfaktor αk an und berechnet alle indirekten Wege als Spiege-lungen an Flächen, so erhält man ein Spiegelmodell der Schallausbrei-tung, das source-image model [AB79]. Nach diesem werden für jedesQuelle-Sensor-Paar (i, n) Raumimpulsantworten (room image response,RIR) als Übertragungsfunktion angeben. Die RIRs sind hier analog zuRaumimpuls-

antworten einem Kern eines linearen Filters mit endlicher Impulsantwort (FiniteImpulse Response, FIR). Faltet man nun das Quellsignal mit der RIR hindes zugehörigen Paares, erhält man das Signal am Sensor. Insgesamtergibt sich das Signal

yn(t) = ∑i

hin ⊗ xi(t) ◦−• ∑i

Hin( f )Xi( f ) (2.7)

am Sensor mn als Summe der mit den RIRs gefalteten Signale xi(t).Trägt man die Energie einer Raumimpulsantwort gegen die Zeit auf,erhält man ein sogenanntes Reflektogramm (Abbildung 5). Am An-fang steht der primäre Peak des Direktschalls, gefolgt von wenigenfrühen Reflexionen (early reflections) die immer dichter werden und ineinem diffusen Hallgemisch auslaufen.

Maßzahlen

Um die Stärke des Halls durch quantitative Größen auszudrücken, gibtes verschiedene Maßzahlen. Die Gebräuchlichste ist die Nachhallzeit T,Nachhallzeit

die Zeit, welche der Schall benötigt, um auf ein Millionstel seiner Am-plitude abzufallen. Wird diese anhand des Abfalls um 60 dB bestimmt,

10 hintergrund

Page 19: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 5.: Reflektogramm mit der typischen dreigliedrigen Struktur aus Direktschall, frühen Reflexionenund diffusem Hall-ende (tail) [Beh06]

wird die Nachhallzeit mit T60 bezeichnet. Näherungsweise kann dieNachhallzeit T für einen Raum mit dem Volumen V nach der Eyring-schen Nachhallformel

T ≈ 0.163V

4mV − S ln(1 − α)(2.8)

bestimmt werden [Kut00, S. 128]. Dabei wird die Absorption α überalle Flächen Sk gemittelt:

α =∑k Skαk

S, S = ∑

k

Sk . (2.9)

Als den Hallradius eines Raumes bezeichnet man die Entfernung zur Hallradius

Quelle, in der direkter und reflektierter Schall die selbe Amplitude ha-ben. Nimmt man näherungsweise an, dass der Direktschall nach Glei-chung 2.5 linear abnimmt, während der Nachhall weitgehend konstantist, läßt sich der Hallradius als

rH ≈ 0.057

VT

(2.10)

aus dem Volumen V des Raumes und der Nachhallzeit T bestimmen[Kut00, S. 317]. Für ein konkretes Quelle-Sensor-Paar wird manchmalauch das Verhältnis von direktem und reflektiertem Schall angegeben, DRR

die sogenannte direct-to-reverberation-ratio, DRR [WB06, S. 206].

2.2.3 Mehrere Sensoren

Häufig wird ein Quellsignal q(t) an einer Quellposition q von Senso-ren wie Mikrophonen oder menschlichen Trommelfellen an Positionenmm,n aufgenommen. Die Signale ym, yn der verschiedenen Sensorenunterscheiden sich dabei zunächst abhängig von der Distanz zur Quel-le. Der Sensorabstand wirkt sich unterschiedlich für verschiedene Fre-quenzen aus. Er hat auch Auswirkungen auf die Kohärenz der Signale.

Quellpositionsabhängigkeit

Werden mehrere Sensoren eingesetzt, kommt es zur richtungsabhängi-gen Verzögerung und Amplitudenunterschieden zwischen den aufge-

2.2 schallausbreitung , raumakustik und aufnahme 11

Page 20: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 6.: Mikrophonpaar im Fernfeld: Die von oben Rechts eintreffenden quasiparallelen Wellenfron-ten (graue Linien) treffen bei den beiden Sensoren mm und mn mit einer zum Verhältnisder Ankathete und Hypothenuse des eingezeichneten rechwinklingen Dreiecks proportiona-len Zeitverzögerung ein.

nommenen Signalen. Die Zeitverzögerung, time delay of arrival, (TDOA)ist

TDOA (mm, mn) =‖q −mn‖ − ‖q −mm‖

c. (2.11)

Im allgemeinen entspricht einem Wert für die Zeitverzögerung ein Hy-perboloid im Raum, der um den Mittelpunkt m0 = (mm + mn)/2 derMikrophone zentriert und zur Strecke mmmn symmetrisch ist. Fürhinreichend große Abstände zur Quelle sind die eintreffenden Wellen-fronten quasi parallel [BW01, S. 167ff.]. Diese wird als Fernfeldannahmefar field assumption

bezeichnet, hier gilt die einfache geometrische Beziehung

TDOA (mm, mn) ≈ ‖mn −mm‖c

cos α (2.12)

mit α = arccos(

(m0 − q)(mm −mn)

‖m0 − q‖‖mm −mn‖

)

,

nach welchen der Laufzeitunterschied nur noch vom Winkel zwischender Quelle und den Sensoren abhängt, dabei ist α der Winkel zur Stre-cke mmmn, wie in Abbildung 6 skizziert. Der Amplitudenunterschiedentspricht dem Verhältnis der Entfernungen:

ADOA (mm, mn) =‖q −mn‖‖q −mm‖

. (2.13)

Die Amplitudendifferenz ist im Fernfeld vernachlässigbar, im Nahbe-reich jedoch signifikant [Täg98].

Frequenzabhängigkeit

Für Frequenzen, deren Wellenlänge kleiner ist als der Abstand zwi-schen den Sensoren, kommt es zu räumlichem Aliasing: Zwischen denräumliches Aliasing

Sensoren ist Raum für mehrere Wellen, so dass die Zeit-Wellenformnicht mehr eindeutig zuzuordnen ist. Für jeden Sensorabstand gibt esdaher eine maximale Frequenz

f < falias =c

‖mn −mm‖, (2.14)

12 hintergrund

Page 21: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 7.: zirkuläre (links), broadside (mittig) und end-fire (rechts) Anordung von Mikrophonen

ab der räumliches Aliasing auftritt. Soll eine Richtwirkung durch Aus-nutzen der Phasenlage in kohärenten Schallfeldern erzielt werden, soist der Abstand auch nicht wesentlich kleiner als etwa eine Viertel-bis Achtel-Wellenlänge zu wählen, da sonst große Amplitudenkorrek-turfaktoren nötig sind. Zu hohe Verstärkungen sind praktisch nichtrealisierbar, da sie das Eigenrauschen der Mikrophone verstärken unddas System extrem empfindlich gegenüber kleinen Abweichungen ma-chen:

f ≥ fmin =c

8‖mn −mm‖. (2.15)

Um beide Forderungen zu beachten, werden verschachtelte Mehrband-strukturen eingesetzt, welche Mikrophone in verschiedenen Abstän-den für verschiedene Frequenzbänder enthalten [MS01]. Üblicherwei-se werden dabei die Mikrophonabstände pro Frequenzband halbiert.In Abbildung 7 ist ein lineares Array aus sieben Mikrophonen in dreiOktavsubbändern in der kolinearen, sogenannten end-fire-Anordnung,und der orthogonalen, sogenannten broadside-Anordung skizziert. Ins- Arraygeometrien

besondere für Lokalisierungaufgaben werden auch zirkuläre und sphä-rische Mikrophonarrays eingesetzt [MM03, LO07, KR09]. Hier werdenvon allen Kanten gleicher Länge in der Clique der Mikrophone Subbän-der aufgespannt, in Abbildung 7 links sind diese durch verschiedeneStrichmuster für ein zirkuläres Array mit acht Mikrophonen darge-stellt.

Kohärenz

Eine weitere von der Frequenz und dem Sensorabstand abhängige Grö-ße ist die räumliche Kohärenz des Schallfeldes. Gemessen wird diese alsBetragsquadrat der Kohärenzfunktion

MSCm,n( f ) =|Φm,n( f )|2

Φm,m( f )Φn,n( f ), (2.16)

die sogenannte magnitude squared coherence. magnitude squaredcoherenceDer direkte Schallanteil ist per Definition kohärent. Wenn man eine

punktförmige Quelle q und für den Weg von der Quelle zum Sensorjeweils ein lineares Filter Hm, Hn annimmt, folgt

MSC(direkt)m,n ( f ) =

|Φm,n( f )|2Φm,m( f )Φn,n( f )

=

∣∣ΦqHm( f )H∗

n( f )∣∣2

Φq|Hm( f )|Φq|Hn( f )| = 1,

(2.17)

wobei Φq die Kohärenz des Quellsignals repräsentiert [Mar95b].

2.2 schallausbreitung , raumakustik und aufnahme 13

Page 22: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

In Innenräumen mit signifikantem Hall (T ≫ 0.3 s) kann der Nachhallnäherungsweise als diffuses Rauschen betrachtet werden. Für diffusessphärisches Rauschen und omnidirektionale Sensoren gilt die Nähe-diffuses Rauschfeld

rung

MSC(diff.R.)m,n ( f ) =

[

si(

2π f ‖mn −mm‖c

)]2

, (2.18)

wobei si den nicht normierten sinus cardinalis bezeichnet. Dies bedeu-tet, dass die Kohärenz des Schallfeldes mit dem Produkt der Frequenzund des Sensorabstandes abnimmt [BW01, S. 66].

Für Frequenzen oberhalb der ersten Nullstelle nimmt Gleichung 2.18

sehr kleine Werte an, so dass die Sensorsignale als unkorreliert betrach-tet werden können. Damit ergibt sich eine obere Grenze von

f < fg =c

‖mn −mm‖(2.19)

für die Annahme eines kohärenten Störschallfeldes. Praktisch bedeutetdies nun, dass in den alias-freien Subbändern auch mit kohärentemStörschall zu rechnen ist.

2.3 menschliches hören

Es wird zunächst die binaurale Apertur beschrieben, welche dieGrundlage der Lokalisierung bildet. Dann wird der physikalische Auf-bau eines Ohres betrachtet. Zusammen mit der neuronalen Kodierungbildet dies den präfferenten Rahmen der Psychoakustik. Im Folgendenwerden wir die elektrischen Signale weiterverfolgen und zunächst dieMerkmalsbildung in den audiotory pathways beschreiben. Dann wird ei-ne knappe Darstellung der weiteren kortikalen Verarbeitung gegebenund schließlich die Arbeitsweise von Invarianzbildung und Abstrakti-onsprozessen kurz erläutert.

2.3.1 Kopfbezogene Übertragungsfunktion

Durch Kopf und Außenohr ergibt sich abhängig von der Richtung ei-ne frequenzabhängige Amplituden- und Laufzeitveränderung, diesewird als head-related transfer function (HRTF) bezeichnet. Im Wesentli-chen lassen sich drei Effekte zur Lokalisierung nutzen.

Durch die räumliche Entfernung der beiden Ohren ergibt sich für ein-treffende Schallquellen ein winkelabhängiger Laufzeitunterschied (in-teraural time difference, ITD) zwischen den beiden Signalen. Die Ab-IID & ITD

schattung des Schalls durch den Kopf führt ab ca. 1.2 kHz zu signi-fikanten Intentisitätsunterschieden (interaural intensity difference, IID)zwischen beiden.

Neben diesen beiden Mechanismen binauraler Lokalisierung wirkt-noch ein dritter, monauraler Mechanismus. Die Ohrmuschel oder „Pin-na“, dient als richtungsabhängiger Schalltrichter. Für hohe Frequen-Pinna Notch

zen wirkt die Pinna als Filter, welches durch Reflexion des Signalesmit zwei verschiedenen Laufzeiten typische Auslöschungsnullstellenerzeugt. Somit ist durch das Lernen der typischen Übertragungsfunk-tion auch monaurale Lokalisierung möglich [Bla96, S. 63-77].

14 hintergrund

Page 23: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

(a) Außen- Mittel und Innenohr (b) Schenke (Schnitt)

(c) Frequenz-Orts-Transformation (d) Corti’sches Organ

Abbildung 8.: Menschliches Gehör [Zwi82, S. 22-25]: Der Schall trifft im Außenohr auf, wird im Mittelohrmechanisch verstärkt und im Innenohr von der Schnecke (Cochlea) in elektrische Impulseim Hörnerv umgesetzt (a). Entlang der Schneckenwindungen verläuft die Basilarmembran(b), welche eine Frequenz-Orts-Transformation vornimmt (c), auf derselben befindet sich dasCorti’sche Organ (d).

2.3.2 Reizaufnahme

Der Druck der Schallwelle wird vom Außenohr eingefangen unddurch den Gehörgang an das Trommelfell weitergeleitet. Im Mittelohrwird der Schall über die zwei Knöchelchen „Hammer“ und „Amboss“mechanisch verstärkt. Vom „Steigbügel“ wird der Druck auf das „ova-le Fenster“ des Innenohres geleitet (Abbildung 8a). Der Frequenzgangvon Außen- und Mittelohr kann nach Terhardt mit der folgenden For-mel in dB für f in kHz approximiert werden [Ter79]:

A( f ) = − 3.64 f−0.8 + 6.5 exp(

−0.6 ( f − 3.3)2)

− 10−3 f 4. (2.20)

Die in der Schnecke (cochlea) befindliche inkompressible gallertarti-ge Masse, die Peri Lymphe, leitet den Druck weiter bis zurück zum„runden Fenster“, was dem Druckausgleich dient. Entlang der Schne-cke verläuft die „Basilarmembran“, welche in Schwingungen in Formeiner Wanderwelle versetzt wird. Die Steifigkeit der Membran nimmtentlang der Schneckenwicklungen ab, was dazu führt, dass am Anfanghohe und am Ende niedrige Frequenzen die höchste Auslenkung erzie-len, wie in Abbildung 8c dargestellt. Damit findet eine Übersetzung Frequenz-Orts-

Transformationvon Frequenzen in räumliche Positionen statt. Auf der Basilarmem-bran sitzt das in Abbildung 8d gezeigte Corti’sche Organ, in welchembei Auslenkung gereizte innere „Haarzellen“ elektrische Impulse er-

2.3 menschliches hören 15

Page 24: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 9.: Hörfläche zwischen Hörschwelle und Schädigungsgrenze. Isophone Linien sind gestrichelteingezeichnet, der Bereich der Sprachlaute in 1 m Sprecherentfernung in der Mitte.

zeugen. Die Impulsketten wandern in Form von spike-trains über denHörnerv zum Gehirn [Han89, S. 461ff.].Die leisesten Töne, welche von einem menschlichen Hörer wahrgenom-men werden, bilden die sogenannte „Hörschwelle“ um 10 dB. Schall-drücke von 120 dB und mehr, welche zur Schädigung des Gehörs füh-ren, bilden die obere Grenze wahrnehmbarer Schallamplituden. In Ab-Hörfläche

bildung 9 ist der nutzbare Bereich dazwischen, die „Hörfläche“, aufge-zeichnet.Die Abbildung der Frequenzen auf den Ort der Basilarmembran wirdmit der Bark-Skala angegeben. Dabei entspricht ein Bark näherungs-weise 1.3 mm Basilarmembranlänge. Die Frequenzverzerrung (frequen-cy warping) kann mit folgender Näherungsformel für f in Hz berechnetwerden [Tra90]:

z[Bark] = (26.81 f / (1960 + f )) − 0.53. (2.21)

Die Lautstärkeempfindung folgt einer frequenzabhängien Übertra-gungsfunktion, welche sich aus der physikalischen Verstärkung undder Empfindlichkeit der Haarzellen ergibt. In physiologischen Versu-chen wurden sogenannte „isophone Linien“, im Englischen equal loud-isophone Linien

ness curves, für gleichlaut empfundene Töne verschiedener Frequenzenbestimmt [Zwi82]. Diese sind in Abbildung 9 als gestrichelte Linienskizziert.Die Fähigkeit, zwei reine Sinustöne als getrennt wahrzunehmen, wur-de ebenfalls untersucht. Diese ist abhängig von der Frequenz der Bei-den. Liegen die Töne auf der Basilarmembran näher als 1 Bark beiein-kritische Bänder

ander, werden sie als ein (modulierter) Ton wahrgenommen. Die zuge-hörigen Frequenzbereiche werden als 25 sogenannte „kritische Bänder“bezeichnet [Zwi82].

2.3.3 Neurale Kodierung

Betrachten wir nun nicht nur die Leistungsverteilung auf der Basilar-membran, sondern auch die zeitliche Form der Wanderwelle und die

16 hintergrund

Page 25: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 26: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

g s haI - t

4.00

2.00

6.00

8.00

Fre

quen

z [

kH

z]

10.00

0.000.50.2 0.4 0.6 0.70.30.1

Zeit [s]

(a) Spektrogramm

sg t h-aI

5

Fre

quen

z [

Bar

k]

10

20

0

15

0.40.1 0.6 0.7

Zeit [s]

0.2 0.3 0.5

(b) auditives Spektrogramm

6.43

4.10

2.59

s -

0.10

aIg

0.55

1.61

ht

Fre

quen

z [

kH

z]

_

0.96

10.00

0.28

0.2 0.70.3 0.60.10.0

Zeit [s]

0.50.4

(c) Cochleogramm

Abbildung 11.: Spektrogramm einer Äußerung des Wortes „Geist“ /gaIs-th/ in physikalischen Messgrößen(oben, 1024er FFT, 512 Samples Überlappung) und Empfindungsgrößen mit Verdeckung(mitte, 1024er FFT, Simultanverdeckung, loudnessmapping) und Cochleogramm nach demStandardmodell [Sla93] (unten, 129 Bänder, IIR-Gammatonfilter in ERB-Spacing nach Glas-berg & Moore, Innenohrverstärkungsfunktion, Energie in 25 ms-Hammingfenster mit 5 msVorschub)

18 hintergrund

Page 27: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 12.: Auditive Pfade von den Cochleas über den Hörnerv durch das mittlere Hirn zum Cortex.Aus den Signalen des Hörnervs werden entlang der Cochlea Nuklei (CN), der oberen Olive(SOC) dem inferior coculli und dem mittleren Kniehöcker grundlegende Merkmale extrahiert,welche dann vom Cortex weiterverarbeitet werden.

an, wobei diese von der Bandbreite b( f ) und dem Wert des Leistungs-spektrums H( f )2 abhängt. Allerdings kann auch zeitlich gesehen einlautes Signal Leisere verdecken. So wird ein leiser Ton im „Windschat-ten“ eines lauten Vorgängers bis zu 200 ms schlicht nicht wahrgenom-men. Faszinierenderweise funktioniert dies sogar umgekehrt: Bei der temporal masking

„Vorverdeckung“ überholen die Impulse für einen lauten Ton dieje-nigen für einen vorhergehenden leisen Ton und verhindern so dessenWahrnehmung. Es wird also ein leiser Ton auch unmittelbar (ca. 20 ms)vor einem lauten Ton nicht wahrgenommen.Der von der Frequenz-Orts-Transformation aufgespannte Zeit×Fre-quenz-Raum lässt sich in einem zweidimensionalen Diagramm dar-stellen, wenn man die Energie jedes Punktes durch Farben oder Grau-stufen kodiert. Abbildung 11a zeigt ein solches „Spektrogramm“. DieLeistungsverteilung in psychoakustischen Messgrößen läßt sich nacheinem psychoakustischen Modell aus dem Spektrogram ableiten undebenfalls bildlich als „auditives Spectrogram“ darstellen wie in Abbil-dung 11b. Ein vergleichbares Bild ergibt sich aus aufwändigen Compu- Spektrogramm &

Cochleogrammtermodellen der Basilarmembran und der anhängigen Lautheitssum-mation. Abbildung 11c zeigt ein solches, nach einfachen Regeln erstell-tes „Cochleogramm“.

2.3.4 Frühe neuronale Verarbeitung

Trotz vieler neurologischer Experimente ist die Funktion und der ge-naue Aufbau der neuronalen Verarbeitung zum Teil noch ungeklärt.Nach dem aktuellen Stand der Forschung wird als primärer Pfad derHörverarbeitung zum auditiven Cortex der in Abbildung 12 skizzierteWeg angesehen [GM00, Kap. 14] [Han89, S. 478ff.].Vom Hörnerv gelangt das Signal in den Cochlear Nucleus (CN). Durchneuronale „Sättigung“ werden hier zum Teil nur Signalspitzen ausge-wertet und nachfolgende Hallanteile monaural unterdrückt [BvH07].In der oberen Olive (SOC) wird die horizontale Schallrichtung durchIntensitätsunterschied (IID) und Zeitversatz (ITD) geschätzt. Nur IID & ITD

durch neuronale phasengenaue Korrelation einzelner Spikes ist diespatiale Auflösung binauraler Analysevorgänge von bis zu ca. 10-50 µserklärbar [SGK+08].Im Colliculi (IC) wird Höheninformation aus dem Nukleus dazu kom-biniert und somit eine dreidimensionale Rückprojektion vorgenom-

2.3 menschliches hören 19

Page 28: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 29: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 30: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 15.: Der Cocktail-Party-Effekt – der Hörer in der Mitte kann seinen gegenüberligenden Gesprächs-partner verstehen obwohl er gleichzeitig das Gespräch der beiden anderen Sprecher hört.

Reduktion der Informationsmenge ist nicht rein statisch, sondern er-folgt dynamisch in Abhängigkeit von Signal, Vorwissen und Aufga-benkontext. Je nachdem, ob die Auswahl relevanter Daten von Neu-ronen in Richtung von „unteren“ (sensorischen) oder „oberen“ (ab-bottom-up &

top-down Prozesse strakteren) Hirnregionen bis hin zum frontalen Cortex gesteuert wird,spricht man in der Kognitionspsychologie von bottom-up- bzw. top-down-Selbstorganisation und Aufmerksamkeitsprozessen.

2.4 auditorische szenenanalyse

Das 1990 am MIT erschienene Buch von Albert Bregman [Bre90] fassteine Vielzahl von aus psychoakustischen Versuchen bekannten Phä-nomenen in einer weitgehend geschlossenen Theorie mit Anlehnungan die Gestalttheorie zusammen. Bregman beschreibt die faszinieren-de Fähigkeit der Rekonstruktion von Umweltereignissen anhand derHörwahrnehmung mit der folgenden Analogie: [..] your friend digstwo narrow channels from the side of a lake. Each is a few feet long and afew inches wide and they are spaced a few feet apart. Halfway up each one,your friend stretches a handkerchief and fastens it to the side of the channel.As waves reach the side of the lake they travel up the channels and cause thetwo handkerchiefs to go into motion. You are allowed to look only at the hand-kerchiefs and from their motions to answer a series of questions: How manyboats are there on the lake and where are they? Which is the most powerfulone? Which one is closer? Is the wind blowing? Has any large object beendropped suddenly into the lake? [Bre90, S. 5-6]

2.4.1 Szenenanalyse

Die auditorische Szenenanalyse begreift Hörereignisse als komplexeSzenen in Analogie zu visuellen Szenen. Eine Szene besteht hier auseinem bestimmten Hintergrund (Rahmen, Kontext), in dem verschie-dene Elemente (Stimmen, Objekte) als Ganzes oder als zusammenge-

22 hintergrund

Page 31: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 32: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

sind, werden als einer Quelle zugehörig zusammengefasst. Dies ge-schieht auf der unteren Ebene zum Teil schon im Segmentierungs-schritt. In größeren Zeitkontexten wird nach demjenigen Merkmalgruppiert, dessen Werte den kleinsten Abstand haben. Man sprichthier auch von competetive criteria. Werden etwa zwei Klaviertöne oderein Vokal mit zwei unterschiedlichen Pitchperioden mit großem zeitli-chen Abstand abwechselnd dargeboten, wie in Abbildung 16a(1) skiz-ziert, hört man eine Melodie. Ist dagegen der zeitliche Abstand sehrklein, wie in Abbildung 16a(2) dargestellt, bilden die beiden Töne zweiGruppen, die zwei simultanen Ereignissen zugeordnet werden. VieleMerkmale, besonders bei Sprache, sind nicht konstant, sondern än-dern sich über die Zeit. Diese werden ebenfalls zusammen gruppiert,solange sie als plausible Fortsetzung erscheinen wie bei der Klavier-melodie in Abbildung 16b(1). Tritt dagegen ein abrupter Wechsel auf,wie in Abbildung 16b(2), so werden die Ereignisse nicht gruppiert undbilden isolierte, aufeinanderfolgende Ereignisse.

Closure

Wenn durch Störungen Lücken in der Merkmalsfolge auftreten, sofindet das Prinzip der closure Anwendung. Wird etwa ein Glissandodurch Bursts weißen Rauschens unterbrochen wie in Abbildung 16c(1)visualisiert, so setzt ein Hörer dies fort und hört eine durchgehendeMaskierung

Melodie. Gibt es dagegen keinen Hinweis auf das Fehlen von Informa-tion durch maskierendes Rauschen, zerfallen die Tonfolgen zu Einze-lereignissen (Abbildung 16c(2)).

Common Fate

Ein in der zeitlichen Folge wichtiger Mechanismus ist die Gruppierungvon Ereignissen mit gemeinsamen Gradienten. Bregman taufte diesesKriterium gemeinsames Schicksal, common fate (Abbildung 16d). Sosind menschliche Hörer in der Lage, zwei oder drei gleichzeitige Spre-cher anhand des Verlaufs der Stimmtonhöhe, dem pitch track, auseinan-pitch track

derzuhalten. Dieses Prinzip überlappt sich mit dem der Fortsetzung,so können auch Formant-Trajektorien oder Lautstärkegradienten zurSeparation gleichzeitiger Ereignisse dienen.

2.4.3 Verarbeitungsmodell für Sprache

Aus informatorischer Sicht erfolgt die ASA in den in Abbildung 17

dargestellten fünf Verarbeitungsschritten. Die binaurale Hörwahrneh-mung extrahiert aus den Signalen im Hörnerv entlang der auditory pa-thways Merkmale entlang den Dimensionen Zeit, Frequenz und Raum.Diese werden zunächst bei der segmentation in kleine zusammenhän-gende Regionen zerschnitten. Danach werden beim grouping Segmen-te, die wahrscheinlich aus der selben Quelle stammen, über ihre typi-schen Eigenschaften anhand von grouping cues gruppiert. Diese Grup-pen bilden jeweils einen in der Zeit ausgedehnten stream, der ein Sze-nenelement repräsentiert. Neben dem primitive grouping, das automa-tisch und kontextfrei geschieht, werden die Informationen in schemabased intergration mittels erlernter Modelle der Sprache und ihrer Pro-duktion in Abstimmung mit der Spracherkennung zu Strömen einerQuelle gruppiert [Bre90, PBO00, WB06].

24 hintergrund

Page 33: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 17.: Schritte der Computational Auditory Scene Analysis

Merkmalsgewinnung

Entlang der auditory pathways werden aus den Signalen im Hörnervwesentliche Merkmale extrahiert (siehe Abschnitt 2.3.4). Diese sind zu-nächst einmal die Energien im Zeit×Frequenz-Raum beider Ohren.Die Korrelation der Phasen wie der Amplituden dient der Rückpro-jektion in den Raum. Über die Korrelation der Signale in einzelnen Lokalisierung

Frequenzbändern wird eine unabhängige Pitch-Schätzung für jede Fre-quenzkomponente gewonnen. Die Differentation über die Zeit liefert Pitch

ein Merkmal für das Ein- und Aussetzen von Komponenten (onset undoffset). Die Korrelation der Umhüllenden der Signale in den Frequenz- on & offset

bändern untereinander extrahiert gemeinsame Amplitudenmodulati-on (common AM) sowie Trajektorien im Zeit×Frequenz-Raum (FM) wie common AM & FM

etwa Formant-Trajektorien [WB06, S. 83-90].

Segmentierung

Die oben genannten Merkmale definieren zusammenhängende Seg-mente im Zeit×Frequenz-Raum, was der nachfolgenden Gruppierungals Basis dient. Der Prozess geschieht dabei auf mehreren Skaleneben-en und mit zeitlicher Glättung [WB06, S. 90-97].Haben benachbarte Frequenzbereiche eine gemeinsame Amplituden-modulation, stammen diese höchstwahrscheinlich von der selbenQuelle. So wird etwa im Falle eines menschlichen Sprechers die Am-plitude durch den Druck des Luftstromes und die Größe der Mundöff-nung bestimmt. Dasselbe gilt für das gemeinsame Ein- oder Aussetzenvon Komponenten. Über die Kreuz- und Autokorrelation können zu-sammengehörige Bereiche identifiziert werden.

Simultaneous Grouping

Für die Gruppierung gleichzeitiger Ereignisse wird nach dem Prinzip simultaneousgroupingder Nähe hauptsächlich Pitch und Lokalisierung sowie Einsetzen und

Modulation verwendet [WB06, S. 97ff.] [UA99].Für stimmhafte Laute liefert die Autokorrelation der Signale in al-len Frequenzbändern, in welche Formant-Energie fällt, eine identischeSchätzung der Stimmtonhöhe. Diese Energien werden zu einem Laut pitch

gruppiert [Bre90, S. 559ff.].Eine identische Raumposition führt zu einer identischen Laufzeitschät-zung durch die Korrelation der Signale beider Ohren. Dies wird, ins-besondere bei einsetzenden und starken Signalenergien, zur Gruppie-rung verwendet [Bre90, S. 590ff.].

2.4 auditorische szenenanalyse 25

Page 34: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Das gemeinsame Einsetzen von Energie in verschiedenen Frequenz-bändern liefert einen starken Hinweis auf eine gemeinsame Ursacheund wird zur Gruppierung verwendet. Allgemein wird auch gemein-onset

same Amplitudenmodulation als Gruppierungskriterium verwendet.Wie bereits bei der Segmentierung dargestellt, ist diese ein Indiz füreine Artikulationsquelle. Eine gemeinsame Frequenzverschiebung inAM & FM

verschiedenen Frequenzbereichen liefert ebenfalls einen Hinweis aufeine identische Quelle. Veränderungen des Vokaltrakts führen, etwazwischen Vokalen und bei Vokal-Plosiv Kombinationen, zu gleicharti-gen Formant-Trajektorien [Bre90, S. 573-590].

Sequential Integration

Die Artikulation von Sprache ist ein kontinuierlicher Prozess, derzu kontinuierlichen Merkmalsverläufen führt (siehe Abschnitt 2.1.1).Gruppierung über die Zeit geschieht aufgrund andauernder gemeinsa-mer Veränderung von Intensität, Pitch, Spektrum oder Raumpositionsowie über Rhythmus [WB06, S. 106ff.].Die Lautstärke und Stimmtonhöhe wird beim Sprechen nur kontinu-ierlich variiert oder unterbrochen. Der Verlauf der Stimmtonhöhe bil-det also in der Regel einen pitch track, der einem Sprecher zugeordnetpitch track

werden kann [Bre90, S. 537ff.]. Die langsame Veränderung der Laut-stärke erzeugt den Rhythmus, neben dem Stimmtonhöhenverlauf einRhythmus

wesentliches prosodisches Merkmal.Die Abfolge der verschiedenen Phone geschieht fließend und führt zukontinuierlichen Übergängen im Spektrum. Diese können der Zusam-menfassung aufeinander folgender Segmente dienen.Ebenso bildet die relative Bewegung eines Sprechers im Raum eineLokalisierung, welche soweit sie ungestört wahrgenommen wird, zurLokalisierung

Gruppierung eingesetzt werden kann.

Schema-basierte Integration

Das primitve grouping erfolgt bottom-up ohne Beeinflussung durch denKontext oder bewusste oder unbewusste Aufmerksamkeitsprozesse.Nach Bregman findet diese in einem nachgeordneten Prozess der sche-ma- oder modellbasierten Integration statt. Das Ergebnis des Gruppie-rungsprozesses wird mit Hilfe von a priori- Informationen und Model-len interpretiert. Das primitive grouping bildet eine Menge von grup-pierten Ereignissen, aus denen ein bis drei mögliche Streams gebil-det werden. Die Auswahl der Streams erfolgt dabei zum Teil bewusst.Nachdem ein Objekt in der Gesamtrepräsentation der Umwelt eta-bliert ist, kann man sich entscheiden, diesem zuzuhören. Die endgül-tige Streambildung erfolgt in Abhängigkeit der gesamten Wahrneh-mung [WB06, S. 115ff.] [Bre90, S. 395ff.].Hier spielen Aufmerksamskeitprozesse eine Rolle, so kann etwa einattention

Ohr ausgewählt werden, wenn sich dort das interessantere Signal be-findet. Jede Form von abrupter akustischer Änderung, insbesondereplötzliche laute Ereignisse, führen zur Fokussierung der Aufmerksam-keit. Bregman zieht hier eine Parallele zu visuellen figure ground Phä-figure ground

nomenen, bei denen sich ein Objekt vom Hintergrund abhebt. Ebensokann ein stark eingeprägtes Muster wie der Klang des eigenen Na-mens die Aufmerksamkeit lenken.Dabei muss die Streamzuordnung durch das grouping alleine keines-wegs eindeutig möglich sein, vielmehr können bestimmte grouping cues

26 hintergrund

Page 35: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

zugunsten der erfolgreichen Streambildung ignoriert werden. So kön-nen die akustischen Lokalisierungs-Cues zugunsten höherstufiger Kri-terien oder visueller Empfindungen vernachlässigt werden. Ein starkerHinweis hierfür sind Experimente, bei denen Signalkomponenten, wel-che unterschiedlichen Ohren dargeboten werden, zu einem Strom fu-sioniert werden [Bre90, S. 591ff.]. In schwierigen Hörsituationen wird Auswahl

die Sprachverständlichkeit maßgeblich top-down erzeugt. Die Sprach-information wird anhand weniger eindeutiger akustischer Ereignisserekonstruiert, was vom Spracherkennungsprozess gesteuert wird. Das glimpsing

„glimpsing model“ wendet genau dies an, um bei starken Störungen imBereich von −6 dB SNR Sprache zu erkennen [Coo06].Bei der Sprachwahrnehmung beteiligte Modelle sind ein Sprecher-und ein Sprachmodell. Das Sprechermodell repräsentiert alle sprecher-typischen Eigenschaften. Damit kann eine Zuordnung über mittlerenPitch, Pitchrauhigkeit, Lautstärke und Position erfolgen. Das Sprach-modell erlaubt die Einschränkung der zu erwartenden Phone – etwa inAnalogie zum bei HMMs gebräuchlichen beam search [Fin03, S. 165ff.].Dabei kann auch eine probabilistische Einschränkung aufgrund derverwendeten Sprache mit ihrer Grammatik und des inhaltlichen Kon-textes erfolgen.

Interaktion im Raum

Befindet sich der Sprecher im gleichen Raum, kommt ein Raummodellhinzu, in dem die Position des Sprechers repräsentiert ist. So wird et-wa die Stärke des Nachhalls zur Schätzung der Entfernung verwendetund kann umgekehrt zur Gruppierung und Streambildung verwendetwerden [WB06, S. 219]. Die Bestimmung des Drehwinkels anhand vonITD-Cues ist zur Trennung nicht immer hinreichend. Praktisch erfolgtdas Auswählen eines Sprechers im Raum meist multimodal und inter-aktiv. Der Kopf wird in Richtung des gewünschten Sprechers gedreht, multimodale &

interaktiveLokalisierung

die Lokalisierung kann dann mit Integration des visuellen Systemserfolgen, sobald dieser ins Gesichtsfeld kommt. Bei frontaler Ausrich-tung sind dann beide Ohren auf den Sprecher gerichtet und es kommtnicht zur Abschattung durch Pinna oder Kopf.

2.4 auditorische szenenanalyse 27

Page 36: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 37: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

3S T A N D D E R T E C H N I K

In diesem Kapitel wird ein Überblick über den aktuellen Forschungs-stand im Bereich der technischen Quellenlokalisierung und neurobio-logisch inspirierter Audioverarbeitung gegeben. Zunächst werden Ver-fahren der technischen Lokalisierung von einer oder mehreren Schall-quellen mit Mikrophonarrays beschrieben. Danach werden Compu-termodelle binauralen Hörens und ihr praktischer Einsatz dargestellt.Schließlich wird die computergestützte Simulation verschiedener As-pekte der neuronalen Verarbeitung beschrieben. Dabei wird der Ein-satz von Modellen nach der Auditory Scene Analysis (ASA) zur Lo-kalisierung und Verfolgung interessanter akustischer Ereignisse sowieQuellentrennung und Spracherkennung geschildert.

3.1 technische lokalisierung

Die Lokalisierung einer oder mehrerer Quellen mit Arrays räumlichverteilter Sensoren wird seit langem in der Radartechnik und Akustikeingesetzt. Wichtige Prinzipien sind dabei die kohärente Überlagerungvon Signalanteilen von der Quelle und die paarweise Kreuzkorrelationdes Signales zweier Sensoren zur Bestimmung des Zeitversatzes desEintreffens der Schallwellen [MHA08, S. 135-170] [GB01, S. 239-260][BW01, S. 181-202].

3.1.1 Indirekte Lokalisierung

Nimmt man eine hallfreie Schallausbreitung an, so gilt der schon be-schriebene Zusammenhang zwischen der zeitverzögerten Ankunft desSchalles an einem Paar von Mikrophonen an den Positionen mm,n undder Position der Quelle q. Die Ankuftszeitdifferenz (time delay of arrival,TDOA) ist

τm,n(q) =(‖q −mn‖ − ‖q −mm‖) fs

c(3.1)

Samples bei einer Abtastrate von fs. Im Fernfeld ohne signifikantenHall oder Störungen kann eine Schätzung τ der Laufzeitdifferenz überden erwarteten quadratischen Fehler erfolgen, also

τ =τ

argmin E{

(yn[t] − ym[t + τ])2}

(3.2)

argmin E{

yn[t]2}

+ E{

ym[t + τ]2}

− 2E {yn[t]ym[t + τ]}

für die Signale yn[t] und ym[t] der beiden Mikrophone. Dies ist fürstationäre Quellen gleich

τ =τ

argmax E {yn[t]ym[t + τ]} , (3.3)

da die Signalenergie in diesem Fall unabhängig von τ ist [MHA08,S. 135ff.].

29

Page 38: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Modelliert man die Raumimpulsantworten als linearphasige FIR-Filter(vgl. Abschnitt 2.2.2) und Störungen als additives Signal, so ist dasSignal, welches vom n-ten Mikrophon aufgenommen wird

yn[t] = hn[k] ⊗ x[t] + nn[t], (3.4)

hierbei wird die Störung mit nn und die Raumimpulsantwort mit allenReflexionen zwischen der Quelle und dem Mikrophon als hn bezeich-net [MHA08, S. 137ff.].

3.1.2 Korrelationsbasierte Lokalisierung

Um den Einfluss von Hall und Störungen entgegenzuwirken, kann jeein lineares Filter hn, hm auf das Signal zweier Mikrophone angewen-det werden, um die TDOA-Schätzung zu berechnen:

τ =τ

argmax E{(hn ⊗ yn(t))(hm ⊗ ym(t + τ))

}

argmax Rymyn(τ) . (3.5)

Der Ausdruck Rymyn wird als verallgemeinerte Kreuzkorrelation (gene-ralized cross correlation, GCC) bezeichnet. Die Kreuzleistungsdichte derGCC

Signale

Φymyn(ω) = Ym(ω)Y∗n (ω) •−◦ yn[t] ⊗ ym[t] = ϕymyn(τ) (3.6)

ist identisch mit der Fouriertransformierten der Kreuzkorrelationϕymyn . So kann man die GCC im Frequenzbereich als

Rymyn(τ) =1

∞∫

−∞

Hn(ω)H∗m(ω)

︸ ︷︷ ︸

G(ω)

Φymyn(ω)ejωτ dω (3.7)

berechnen. In den meisten Anwendungsfällen sind weder die Raumim-pulsantworten noch die spektrale Verteilung von Signal- und Störkom-ponenten bekannt. Daher wird G(ω) := Hn(ω)H∗

m(ω) geschätzt. Einpraktisch gut bewährter Ansatz ist die Phasentransformation (PHAT).PHAT

Hier wird angenommen, dass nur die Phase der Kreuzleistungdichtefür die Lokalisierung relevant ist [MHA08, S. 144]. Daher wird hiereine Betragsnormalisierung vorgenommen:

RPHAT(τ) =1

∞∫

−∞

Φymyn(ω)∣∣Φymyn(ω)

∣∣

ejωτ dω. (3.8)

Für jede Quellposition q kann nach Gleichung 3.1 die sich ergebendeLaufzeitverzögerung berechnet werden. Durch Aufzählung der mögli-chen Quellpositionen ergibt sich für jede Position ein Schätzwert, derproportional zu der Wahrscheinlichkeit ist, dass sich dort eine Quellebefindet. Die sich ergebende „Landschaft“ aus Rückprojektionen vonSchätzwerten wird als spatial likelihood function (SLF) bezeichnet. Dasspatial likelihood

function Maximum der Funktion entspricht der geschätzten Quellposition

q =q

argmax RPHAT(τ(m,n)(q)). (3.9)

30 stand der technik

Page 39: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Dieses Maximum ist für zwei Mikrophone nicht eindeutig, einem dis-kreten TDOA-Wert entspricht ein Hyperboloid im Raum. Um die Posi-tion einzuschränken, müssen also mehr als zwei Mikrophone verrech-net werden. Dies erreicht man durch paarweise Kombination.

3.1.3 Kombination mehrerer Mikrophonpaare

Die Kombination der Schätzung mehrerer Mikrophonpaare (m, n) ∈ Pin einem Mikrophonarray kann auf verschiedene Weise erfolgen. Viel-fach wird der steered response power-Ansatz (SRP-PHAT) eingesetzt steered response

power[BW01, S. 157-180]. Dabei wird ein Delay-and-Sum-Beamformer indie Richtung gesteuert, bei der er die maximale Ausgangsenergie hat.Geht man von einer Quellposition q aus, lässt sich diese Bedingungals

q =q

argmax1

π∫

−π

∑(m,n)∈P

Φymyn(ω)∣∣Φymyn(ω)

∣∣

ejωτm,n(q) dω (3.10)

=q

argmax ∑(m,n)∈P

12π

π∫

−π

Φymyn(ω)∣∣Φymyn(ω)

∣∣

ejωτm,n(q) dω

︸ ︷︷ ︸

RPHAT(τ(m,n)(q))

schreiben, was man auch als Erweiterung der GCC auf mehrere Mi-krophonpaare ansehen kann [MHA08, S. 149ff.]. Der SRP-PHAT-Algo-rithmus hat sich praktisch vielfach bewährt. Das Vorgehen ist im Falleines Signal-Rausch-Verhältnisses von etwa 10 dB oder mehr theore-tisch optimal, hier wird die Cramer-Rao Lower-Bound (CRLB), eine un- CRLB

tere Schranke für den RMS-Fehler eines Parameterschätzers, erreicht[WW83]. Bei Verwendung hinreichend großer Zeitfenster ist das Ver-fahren auch robust gegenüber Hall und anderen Störungen [ZFZ08].Die Addition der Kreuzkorrelationsergebnisse verschiedener Mikro-phonpaare führt dabei allerdings zu vielerlei Nebenmaxima (ghosts).Eine theoretisch optimale Vermeidung von Nebenmaxima erhält mandurch multiplikative Kombination, diese schränkt die Quellpositionauf den Schnitt der jeweiligen Hyperboloiden ein. Dies ist mit derWahrscheinlichkeitsinterpretation der spatial likelihood function einsich-tig: Entspricht ein Wert der SLF der Wahrscheinlichkeit für eine Quell- Verbundwahr-

scheinlichkeitposition, so ist die Gesamtwahrscheinlichkeit einer Quellposition

P(q) = ∏(m,n)∈P

RPHAT(

τ(m,n)(q))

(3.11)

als Produkt der Wahrscheinlichkeiten über alle Mikrophonpaare P ge-geben [PKV08].

Praktisch ist die Multiplikation nicht optimal, da eine Nullkomponen-te eine Position vollständig ausschließt. Zu niedrige Korrelationswertefür ein einzelnes Paar können leicht durch Fehler im Signal oder Feh-ler im Aufbau des Mikrophonarrays zustande kommen. Als alternativeKombinationsvorschrift wurde von Pertilä et al. die Familie

hγ(x, y) =xy

γ + (1 − γ)(x + y − xy)=: x ⊙ y (3.12)

der Hamacher-t-Normen aus der Fuzzy Logic vorgeschlagen [PKV08]. fuzzy t-norm

3.1 technische lokalisierung 31

Page 40: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 18.: Wahrscheinlichkeitskombination mit Summe, Produkt und Hamacher-t-Norm. Für alle dreiKombinationsverfahren sind jeweils Konturlinien gleicher Wahrscheinlichkeit eingezeichnet;aus [PKV08].

Durch iterative Anwendung von hγ,

i∈I

xi := (((x1 ⊙ x2) ⊙ . . .) ⊙ xn), (3.13)

kann so eine robustere Schätzung der Gesamtwahrscheinlichkeit als

P(q) =⊙

(m,n)∈P

RPHAT(

τ(m,n)(q))

(3.14)

bestimmt werden. Dabei kann die Kombination mit einer Hamacher-t-Norm mit dem Parameter γ zwischen dem normalen Produkt γ = 1und dem Hamacher-Produkt γ = 0 variiert werden. Auf diese Weiseist ein Kompromiss einstellbar, der Nebenmaxima hinreichend unter-drückt und trotzdem robust gegen Ungenauigkeiten ist.

3.2 lokalisierung mehrerer quellen

Entsprechend der Lokalisierung einer Quelle mit der SRP-PHAT las-sen sich mehrere gleichzeitige Quellen als die n höchsten Peaks in derspatial likelihood lokalisieren. Abbildung 19 zeigt die spatial likelihoodspatial likelihood

peaks zweier stationärer Quellen aufgetragen für Quellpositionen in zweikartesischen Raumkoordinaten.Dies ist jedoch nur anwendbar, wenn die Quellen stationär und für denGroßteil des betrachteten Zeitfensters aktiv sind. Des Weiteren ist eineSchätzung der Quellenanzahl Q nötig. Diese erfolgt im einfachstenFall über einen Energieschwellwert. Für die Lokalisierung bewegterQuellen wechselnder Zahl sind verschiedene Algorithmen im Einsatz:

3.2.1 Eigenwertverfahren

Ein Ansatz der Lokalisierung mehrerer Signalquellen ist die Dekom-position in linear unabhängige Unterräume. Entsprechende Verfahrensind unter den Namen MUSIC, Root-MUSIC oder PRIMES bekannt.Formuliert man das Signalmodell aus Gleichung 3.4 im Frequenzbe-reich so geht die Faltung in eine Multiplikation über und man erhält

Yn = HnX + Nn , (3.15)

32 stand der technik

Page 41: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

(a) SRP-PHAT (b) Hamacher-PHAT

Abbildung 19.: SRP-PHAT und Hamacher-PHAT spatial likelihood für zwei stationäre Quellen [PKV08]

dabei lassen wir den Frequenzindex zugunsten der Lesbarkeit kurz-zeitig weg. Fassen wir die Signale aller Mikrophone in einem VektorY = (Y0, Y1, . . . Yk−1)

T zusammen, lässt sich die gesamte Aufnahmeals

Y = HX + N (3.16)

schreiben. Betrachten wir nun die spektrale Kovarianz spektrale Kovarianz

ΦYY = E{

YYH}

. (3.17)

Unter Annahme unabhängiger Signal- und Störkomponenten gilt

ΦYY = HE{

XXH}

HH + E{

NN H}

(3.18)

= HΦXXHH + ΦNN (3.19)

= HΦXXHH + ΦNNI . (3.20)

Durch Eigenvektorzerlegung lässt sich die spektrale Kovarianz mit ei-ner Diagonalmatrix D als Diagonalisierung

ΦYY = U (D + ΦNNI)U H (3.21)

ausdrücken. Hier kann man nun die Q Eigenvektoren, welche den Qgrößten Eigenwerten zugeordnet sind, als signaltragende Unterräume Unterräume

und die restlichen als Unterräume betrachten, welche nur aus Störun-gen bestehen. Man kann die signaltragenden Unterräume als M × Q-Matrix UX zusammenfassen. Mit einem steering vector

s(q) = (ejωτ0(q), ejωτ1(q), . . . ejωτM−1(q))T , (3.22)

welcher die Delay-and-Beamformer-Zeitverzögerungen τm(q) der MMikrophone in Richtung einer Quelle q ausdrückt, kann der Vektor derQ Quellen q = (q0, qi . . . qQ−1) berechnet werden [MHA08, S. 151ff.]:

q =q

argmax s(q)HUXU HX s(q). (3.23)

3.2 lokalisierung mehrerer quellen 33

Page 42: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

(a) Mischverteilungsmodell(b) Clustering

Abbildung 20.: Clustering von Sprachereignissen [LO07]. Mischverteilungsmodell für die Winkelzuordungdes Signals eines Sprechers mit Störungen (links) und Clustering im Zeit×Drehwinkel-Raum(rechts).

Basierend auf dem Unterraumansatz sind verschiedene akustische Lo-kalisierungen umgesetzt worden. Weiterentwicklungen des als PRIMEbekannten Lokalisierungsschemas erreichen mit einer Monte-Carlo-Optimierung die Cramer-Rao-Schranke für zwei simulierte kontinuier-liche stationäre Quellen und gutes Signal-Rauschverhältnis [CKR09].Ein vereinfachtes Root-MUSIC Schema mit direktem Aufteilen derSumme aus Gleichung 3.16 in zwei Quellen und rekursive zeitlicheGlättung erster Ordnung mit dem PASTd-Algoritmus erlauben Online-PASTd-Algoritmus

Lokalisierung zweier Quellen. Experimente in einem Innenraum mitHall (T60 = 0.5 s) erzielten korrekte Lokalisierungen mit einem RMS-Fehler von 22° [OS09].

3.2.2 Gauß’sche Mischverteilung und Kurzzeitcluster

Ein anderer Ansatz der Lokalisierung mehrerer Sprecher wurde vonLathoud et al. für den Einsatz eines zirkulären Mikrophonarrays ineinem Konferenzraum entwickelt. Es werden Trajektorien von Spra-che im Zeit×Drehwinkel-Raum bestimmt [LO07]. Dabei werden ausEnergiepeaks kurze Sprachsegmente gebildet. Die kurzen Segmentewurden absichtlich gewählt, da ohne Sprachmodell oder ergänzendevisuelle Information die Bestimmung von Sprechertrajektorien nichtsinnvoll realisierbar ist.Die Bestimmung von Energiepeaks mit der SRP-PHAT erfolgt in zweiSchritten. Im ersten Schritt werden 20°-Sektoren um das zirkuläre Mi-zweistufige SRP-

PHAT-Lokalisierung krophonarray bestimmt, welche signifikante korrelierte Energie auf-weisen. Im zweiten Schritt wird in den aktiven Sektoren eine Sprecher-position per Gradientenabstieg in der SRP-PHAT-Energielandschaft innach Drehwinkel×Neigung× log(Entfernung) diskretisierten Raumko-ordinaten bestimmt. Die so in 32 ms-Frames mit 50 % Überlappungbestimmten Peaks werden durch dynamische maximum likelihood-Par-titionierung zu Kurzzeitclustern zusammengefasst wie in Abbildung20b schematisch dargestellt. Dabei ist ein Kurzzeitcluster eine Folgevon Drehwinkel-Zeit-Punkten mit Pausen von weniger als sieben Fra-mes. Als Modell der lokalen Dynamik wird eine Gauß’sche Mischver-teilung verwendet. Dabei wird ein kleiner Wert σsame für die für die

34 stand der technik

Page 43: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Varianz des Winkels innerhalb des Clusters eines Sprechers und ei-ne großer Wert σdiff für Störungen, Nebenmaxima und Peaks andererSprecher angenommen. Abbildung 20a zeigt das Mischverteilungsmo- Varianzmodell

dell im Vergleich zu der tatsächlichen Varianz der Winkel bis zu zweiFrames. Mit diesem Modell erfolgt die Erzeugung von Kurzzeitclus-tern. Dabei werden zunächst Startwerte vorgegeben und die Varian-zen in einem expectation maximization-Trainingsschritt (EM) geschätzt.Dann wird die wahrscheinlichste Partitionierung über ein Zeitfens-ter von sieben Frames mit dem EM-Algorithmus [DHS01, S. 124ff.]bestimmt. Dabei wird für Elemente in derselben Partition σsame an- Partitionierung

genommen, andernfalls σdiff. Die Partitionierung wird dann mit derPartitionierung der vorhergehenden Frames nach demselben Modellvereinigt. Für sieben Frames existieren bereits 877 mögliche Partitio-nen und 13 327 mögliche Vereinigungen, so dass hier heuristischespruning zum Einsatz kommt, um Laufzeiten im Echtzeitbereich zu er-halten. Neben dieser „on-line“-Variante wurde eine Suche von optima-len Clustern mit simulated annealing implementiert. Da viele Peaks de-tektiert werden, welche keinem Sprecher zugeordnet werden können(false positives), wurde auf Clusterebene eine Sprache-Nichtsprache-Un- speech-nonspeech

terscheidung eingeführt. Der Cluster muss aus mehr als zwei Elemen-ten bestehen, welche sich über mehrere Frequenzen erstrecken. Dabeimuss eine minimale Zeit- oder Winkelvariation auftreten (Nichtstatio-narität). Dieses Kriterium wurde eingeführt, um stationäre Störungenwie Notebook- oder Projektorlüfter zu unterdrücken. Dieses Verfahrenwurde mit Daten aus dem AV16.3-Korpus [LOGP05] evaluiert. Dabeiwurden Detektionen erzeugt, welche zu 92 % nach einem adaptivenSchwellwertkriterium mit den tatsächlichen Positionen übereinstimm-ten.Eine Implementierung von Madhu und Martin setzt ebenfalls basie-rend auf der SRP-PHAT eine Gauß’sche Mischverteilung mit dem EM-Algorithmus zur Lokalisierung mehrerer Sprecher ein. Hier wird derRestklasse eine feste Varianz von 90° zugewiesen. Der Kurzzeitcharak-ter von Sprecheraktivität wird hier durch eine time to live (TTL)-Größemodelliert [MM08].

3.3 modelle binauralen hörens

Alle biologisch inspirierten Implementierungen enthalten ein Modelldes binauralen Hörens [Bla96, S. 337ff.]. Diese bestehen in der Regelaus den drei folgenden Komponenten: Einer Filterbank zur Modellie-rung der Frequenz-Orts-Transformation der Cochlea (Abschnitt 3.3.1),einem Spike-Generierungsschritt zur Modellierung der Kodierung imauditiven Nerv (Abschnitt 3.3.2) und einer Modellierung der ITD/I-ID-Schätzung im SOC. Letztere erfolgt meist als Korrelation nach demJeffress-Colburn-Modell (Abschnitt 3.3.3).

3.3.1 Gammaton-Filterbank

Die Funktion der Basilarmembran (vgl. Abschnitt 2.3.2) kann mit ei-ner ERB-skalierten Gammaton-Filterbank nach dem Patterson-Holds-worth-Modell nachgebildet werden [PNSHR88]. Dabei wird eine Rei-he von Gammaton-Filtern n-ter Ordnung eingesetzt, eine äquidistantePositionierung der Mittenfrequenzen erfolgt dabei nach der Equal Re-sonance Bandwidth-Skala (ERB). Dabei sind beide Größen das Ergebnis

3.3 modelle binauralen hörens 35

Page 44: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 21.: Filter des auditiven Nervs, gewonnen durch Kreuzkorrelation neuronaler Antworten einerRatte auf einen 3 kHz-Stimulus [Mø77]

0 1 2 3 4 5 6 7 8 9 10

−0.2

0

0.2

t [ms]

g(t

)

Abbildung 22.: Impulsantwort eines Gammatonfilters mit fb = 3 kHz

neurologischer Untersuchungen. Abbildung 21 zeigt die Messung derAntwort des akustischen Nervs auf einen Sinuston, welcher durch dieGammatonfilter angenähert wird. Ein Gammatonfilter n-ter Ordnungmit der Bandbreite wb und der Mittenfrequenz fb hat eine wie in Ab-bildung 22 gezeigte Impulsantwort

g(n)(t) = at(n−1) exp(−2πwbt) cos(2π fbt + φ). (3.24)

Für die Gammaton-Filter existiert eine effiziente Implementierung vonSlaney [Sla93] als vier IIR-BiQuads, rekursive Filter zweiter OrdnungIIR-BiQuads

mit unendlicher Impulsantwort (Infinite Impulse Respose, IIR), welcheauch die Grundlage für die oft eingesetzte MATLAB-Toolbox dessel-ben Autors sind. Die Übertragungsfunktion der vier kaskadierten Fil-ter lässt sich zusammenfassend mit einem Parameter k = 0 . . . 3 als

H(k)(z) =Tsz+

(−Ts cos(2π f Ts)exp(Tsb) +(−1)k

√3+(−1)2k21.5 Ts sin(2π f Ts)

exp(Tsb)

)

z−1

z+−2 cos(bTs)exp(Tsb) z−1+exp(−2bTs)z−2

(3.25)

aufschreiben, hierbei ist Ts := 1/ fs das Abtastintervall. Dazu ist nocheine Amplitudennormalisierung nötig. Ein Vorteil der IIR-Lösung istdie vergleichsweise schnelle Berechnung. Allerdings ist diese Approxi-mation allein aufgrund des Amplitudenganges definiert und hat einennichtlinearen Phasengang, welcher zu einer Verzerrung der Laufzei-ten innerhalb jedes Kanals führt. Abbildung 23 zeigt den Amplituden-und Phasengang einer solchen Realisierung. Wenn man, wie im vor-liegenden Fall, auch die Phaseninformation innerhalb der Kanäle be-nötigt, kann man hier einen Laufzeitausgleich einführen, etwa nachder forward-backward-Methode. Hier wird das gefilterte Signal zeitlichforward backward

method invertiert und durch ein ebenfalls zeitlich invertiertes Filter erneut ge-filtert. Dies führt zu blockweiser Verarbeitung und erfordert die auf-wändige Bestimmung geeigneter Anfangszustände [VLAO05, Gus96].

36 stand der technik

Page 45: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000

−12

−24

−36

f [Hz]

|G(f

)|[d

B]

0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000

−360

−270

−180

−90

0

90

180

270

360

f [Hz]

∡G

(f)

[◦]

Abbildung 23.: Amplituden- und Phasengang einer Gammaton-Filterbank aus IIR-BiQuads. Acht Kanäle von200 bis 6 000 Hz in ERB-Spacing nach Glasberg und Moore, fs = 20 000 Hz

3.3.2 Neuronale Kodierung

Aus den gefilterten Signalen in den einzelnen Frequenzbändern wer-den den neuronalen spike trains (vgl. Abschnitt 2.3.3) entsprechendeImpulsfolgen erzeugt. Basierend auf dem Modell von Lyon [Lyo83]verwenden bis heute die meisten CASA-Modelle durch Einweggleich- Einweggleichrich-

tungrichtung und quadratische Kompression gewonnene Impulse [SW07,RW08]:

x′n =

{ √xn xn > 0

0 sonst.(3.26)

Dies stellt eine sehr einfache Näherung dar, genauere Modellierungenberücksichtigen sämtliche Kodierungseingeschaften der inneren Haar-zellen [LPGR+09, VLAO05, Kat91].Eine andere einfache Näherung ist die Auswertung von Nulldurch-gängen der bandpassgefilterten Signale. Hiermit wird die Phase des Nulldurchgänge

Signals direkt repräsentiert und eine einfache Korrelation ermöglicht[HOS95, KAK06]. Um die phasenstarre Spike-Generierung der Coch-lea besser abzubilden, kann eine Erzeugung von Impulsen bei Signal-maxima erfolgen. Diese sind im Gegensatz zu den Nulldurchgänge Peaks

allerdings nicht nur bei reinen, ungestörten Signalen mit den Phaseneines Quellsignals korreliert, da etwa die Maxima kräftiger Formantenauch bei Mischungen mit geringem Signal-Rauschverhältnis die Phasewiedergeben [Gro03].

3.3.3 Korrelation

Die binaurale Auswertung entlang der auditory pathways (vgl. Ab-schnitt 2.3.4) wird oft durch eine einfache oder modifizierte Varian-

3.3 modelle binauralen hörens 37

Page 46: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 24.: ITD-Analysator nach dem Jeffress-Colburn-Modell mit der Erweiterung von Lindemann ausZeitverzögerungsgliedern (z−1), Inhibitoren (i) und neuronalen Multiplikatoren (×)

te des Jeffress-Colburn-Modells modelliert [Bla96, S. 393ff.]. Ein ITD-Analysator nach Jeffress’ neural coincidence model [Jef48] in der Quan-tifizierung durch Colburn [CD78] ist wie folgt realisiert: Die SignalexL(t), xR(t) zweier Mikrophone in einem Band werden an den Endeneiner Reihe von Neuronen eingespeist und mit je einem Sample Verzö-gerung an das Nächste weitergeleitet:

xn(t) :=xL(t − n) · xR(t + n). (3.27)

Korrelieren die Signale mit einer bestimmten Laufzeitdifferenz, sozeigt das zugeordnete Neuron eine hohe Aktivität. Für korrelierte Si-bandwise cross

correlation gnale ohne Zeitversatz zeigt hier das mittlere Neuron maximale Reak-tion, bei einem Signal von links ein Neuron rechts von der Mitte, beidem sich ITD und Verzögerung ausgleichen.

Das Ergebnis der Korrelation von halbweggleichgerichten Signalendurch das Jeffress-Colburn-Modell sind mitunter sehr breite Korrela-tionsfiguren. Um klare, schmale Peaks zu erhalten, wird dies zu ei-nem skeleton cross-correlogram geschärft. Dabei werden die Peaks durchGaußfunktionen mit der Höhe des Peaks und einer der Bandfrequenzinvers proportionalen Breite ersetzt [PBW04, RW08] [WB06, S. 172-175].

Zu dem einfachen Jeffress-Colburn-Modell existieren vielfältige Erwei-terungen [WB06, S. 160-171] [Bla96, S. 393-408]. Lindemann führte diekontralaterale Inhibition ein, bei welcher sich die Zellen entgegenge-contralateral

inhibition setzter Zeitversätze gegenseitig unterdrücken können. Diese sind inAbbildung 24 mit i bezeichnet. Durch diese Erweiterung wird die Kor-relation erheblich geschärft, da nur bei übereinstimmendem Zeitver-satz keine Inhibition auftritt [Lin86a]. Durch Halten der Inibition füreinen längeren Zeitraum ist eine Nachahmung des precedence effect füreinige Stimuli möglich [Lin86b].

In der neurologischen Forschung sind einige recht komplexe Mo-delle der SOC entwickelt worden. Eine typische Erweiterung ist ei-ne Übertragung des Jeffress-Modells auf interaurale Pegeldifferenzen(ILDs). Hier wird neben einem rechteckigen Frequenzband-ITD-Neu-Frequenz × ILD

ronenschema als Modell der LSO (seitliche obere Olive) nach Jeffress-Colburn ein rechteckiges Frequenzband-ILD-Neuronenschema als Mo-dell der MSO (mittlere obere Olive) gebildet [LPGR+09, WEA+06].

38 stand der technik

Page 47: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 25.: K. Martin, KEMAR Dummy und W. Gardner in der Akustikkammer des MIT Media Lab

3.4 bilogistische lokalisierung

Im Gegensatz zu Mikrophonarrays verfügen Säugetiere nur über zweiakustische Sensoren. Dennoch kann mit diesen nicht nur eine Schät-zung der Richtung in der Ebene, sondern auch eine Schätzung derHöhe erschlossen werden. Hier ist es notwendig, die Übertragungs-funktion des aufnehmendenen Systems in allen Raumrichtungen zukennen. Es existieren verschiedene Implementierungen, welche überdie kombinierte Übertragungsfunktion von Kopfabschattung und Au-ßenohr (head-related transfer function, HRTF) eine Ortung vornehmen.

3.4.1 Kunstkopf

Von Martin und Gardner wurde am MIT Media Lab 1994 eine ge-naue Messung der HRTF eines „KEMAR-Dummy“ durchgeführt. Da-bei handelt es sich um einen speziell für akustische Messungen gefer-tigten Oberkörper und Kopf mit Mikrophonen in den Ohren [GM94].Diese ist frei verfügbar und wird bis heute in vielen Simulationen ver- HRTF Messung

wendet.1

Basierend auf dieser wurde von Martin eine Lokalisierung in Kugelko-ordinaten implementiert [Mar95a]. Die zwei Eingangssignale werdenmit einem Kunstkopf aufgenommen, mit einer Innenohrübertragungs-funktion gefaltet und in einer Cochlear-Filterbank [Sla93] in 24 Bändervon 80 Hz bis 18 kHz aufgeteilt. In jedem Band wird mit einem Tiefpassdie Umhüllende berechnet. Der Einsatz (onset) in jedem Band wird als onset

lokales Maximum der beiden Umhüllenden bestimmt. Hierbei wirdmit einer 10 ms-Totzeit Nachverdeckung und mit einer einfachen Re-gel Vorverdeckung simuliert. Auf so bestimmten, „interessanten“ Zeit- temporal masking

punkten wird ein 2 − 3 ms langes Exponentialfenster zentriert. Auf die-sem wird das Energieverhältnis

IIDk =10 log10

n

∑t=−n

Lk(t) − 10 log10

n

∑t=−n

Rk(t) (3.28)

1 http://sound.media.mit.edu/resources/KEMAR.html

3.4 bilogistische lokalisierung 39

Page 48: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

zwischen Links und Rechts bestimmt. Dazu wird der Spitzenversatz

IPTDk =τ

argmaxn

∑t=−n

Lk

(

t − τ

2

)

Rk

(

t +τ

2

)

(3.29)

und Umhüllendenverschiebung

IETDk =τ

argmaxn

∑t=−n

Lk

(

t − τ

2

)

Rk

(

t +τ

2

)

(3.30)

für jedes Band k per Korrelation geschätzt. Ausgehend von weißem,Gaußverteiltem Rauschen als durchschnittlichem Eingangssignal wur-den theoretische Werte in 5◦-Schritten für jedes Band berechnet. DieParameter werden dann über die inverse Fouriertransformierte derHRTF für Dirac-impulse bzw. gleichverteilte Spektren bestimmt. Ausdiesen Daten wird mit einem maximum likelihood-Schätzer die wahr-ML-Schätzer

scheinlichste Schallrichtung bestimmt. Das Verfahren bestimmt denDreh- und Neigungswinkel von Quellen in der akustischen Kammerbis auf wenige Ausnahmen im richtigen 5°-Segment.

3.4.2 Salienz und humanoide Roboterohren

Ein aus der Neurologie stammendes Konzept ist das einer sensori-schen, raumorientierten Interessantheits- oder Salienzkarte (saliencymap). Nach der feature-integration theory [TG80] werden im posteriorparietalen Cortex (PP) interessante Ereignisse in einer ortsbasiertenKarte verortet. Dazu wurde von dem Informatiker Itti und dem Kogni-tionsbiologen Koch eine Implementierung entwickelt, welche heraus-stechende Bildbereiche detektiert [IKN98]. Dabei wird der aus der Ko-gnitionspsychologie bekannten Effekt der inhibition of return (IOR) beiBlickbewegungen nachgeahmt. Der jeweils interessanteste Ort wird ineiner inhibierenden Karte eingetragen, sodass in der Folge der jeweilsnächste interessante Ort gefunden wird. Der Ansatz wird heute oft umweitere Modalitäten erweitert. So werden auch Bewegungsmerkmalein Bildfolgen sowie akustische Ortung verwendet.

Bei einer Umsetzung multimodaler Aufmerksamkeit auf dem huma-noiden Roboter „iCub“ werden akustische und visuelle Ereignisse inKugelkoordinaten in eine ego-sphere genannte Interessantheitskarte ein-ego-sphere

getragen, welche den Kopf des Roboters umspannt. Die visuelle In-teressantheit wird in Skalenpyramiden der Merkmale Intensität, Farb-wert, Richtung und einem aus Differenzbildern gewonnen Bewegungs-merkmal berechnet. Dabei wird eine akutsische Lokalisierung mit derVisuellen integriert [RLB+08].

Der Roboter besitzt als Nachbildung der menschlichen Physiologiezwei Mikrophone in je einem künstlichen Außenohr wie in Abbildung26a zu sehen. Der Drehungswinkel wird direkt aus dem ZeitversatzITD

abgeleitet. Dieser wird aus der Kreuzkorrelation des ungefilterten Zeit-signals berechnet. Der Neigungswinkel wird mittels der spektralen Mi-nima (pinna notch) der Signale bestimmt. Dazu wird die Differenz derspektrale

Neigungsschätzung Spektren gebildet (interaural spectral difference, ISD)

∆H(ω) =10 log10 HL(ω) − 10 log10 HR(ω). (3.31)

40 stand der technik

Page 49: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 50: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

(a) T60 = 0.0 s (b) T60 = 0.05 s

Abbildung 27.: Sprecherverfolgung im Modell von Roman et al. [RW08]; Lokalisierungstrajektorien für dreiüberlappende Sprecher in 30°-Abständen ohne (links) und mit leichtem Hall (rechts). Schonbei leichtem Hall treten Zuordnungsfehler, Lücken und starke Winkelabweichungen auf.

zeitige Sprecher verwendet. Ausgehend von null bis drei möglichenlikelihood

Sprechern und der Einschränkung der Änderung der Sprecherzahl umhöchstens eins zwischen zwei Frames ergeben sich acht Subräume vonHMM-Zuständen – ein Subraum für keinen Sprecher (S0), drei füreinen Sprecher (S1..3

1 ), drei für zwei Sprecher (S1,22 , S2,3

2 , S1,32 ) und ei-HMM subspace

ner für drei gleichzeitige Sprecher (S3) – mit 32 Übergängen. In jedemSubraum werden die Sprecherpositionen in 1°-Schritten parametrisiert.Mittels Viterbi-Dekodierung werden die Spuren der Sprecher berech-Viterbi Tracking

net. Dabei wird der Rechenaufwand mittels beam search und Einschrän-kung der Winkelvariation eines Sprechers zwischen zwei Frames auf6° reduziert.Eine Evaluierung wurde mit Aufnahmen gesprochener Sätze ausdem TIMIT-Korpus durchgeführt. Es wurde eine Simulation von dreigleichzeitigen bewegten Sprechern in 30° Abstand ohne NachhallT60 = 0 s berechnet. Dabei wird eine Genauigkeit von 7.2° ohne Stö-rungen und von 6.9° bei einem simulierten Signal-Rauschverhältnisvon 40 dB erreicht. Eine zum Vergleich durchgeführte Lokalisierungmit 16 Mikrophonen und einem Kalmanfilter-Ansatz erreicht hier 12.9°Genauigkeit.Die meisten Untersuchungen wurden mit der Simulation von hallfrei-en Umgebungen (T60 = 0 s) gemacht. Die Lokalisierungsgenauigkeitnicht Hall-robust

nimmt bereits für eine simulierte Nachhallzeit von T60 = 0.05 s deut-lich ab, wie in Abbildung 27b zu sehen [RW08, S. 737].

3.5 spracherkennung

Die CASA kann durch Nachbildung von stream separation eine Grund-lage für robuste Spracherkennung liefern. Bevor die einzelnen Imple-mentierungen dargestellt werden, wird kurz das gemeinsame Prinzipder Zeit×Frequenz-Masken und seine Integration in den Spracherken-nungsprozess geschildert (Abschnitt 3.5.1). Eine der großen Herausfor-derungen ist die automatische Separation eines einkanaligen Signalesin mehrere Streams. Zur Trennung von cochannel speech gibt es ver-schiedene Ansätze, die jeweils ein sehr komplexes Modell des mensch-lichen Hörens beinhalten. Hier wird zum Vergleich mit den mehrka-naligen Verfahren ein Spracherkennungsystem vorgestellt, welches inder Lage ist, zwei gleichzeitige Sprecher in einem einkanaligen Signalzu trennen und Sprache eines nach vorgegebenen Regeln selektierten

42 stand der technik

Page 51: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Sprechers zu erkennen (Abschnitt 3.5.2). Die Verwendung mehrererMikrophone erleichtert die Trennung gleichzeitiger, räumlich getrenn-ter Sprecher. Basierend auf der Modellierung binauralen Hörens wur-den verschiedene Spracherkennungssysteme entworfen. Dabei wirdzunächst eine Lokalisierung in unabhängigen Frequenzbändern vorge-nommen, mit dieser wird dann die Sprecherposition und -Anzahl ge-schätzt. Dazu werden zwei Ansätze dargestellt: Die Verwendung vonNulldurchgängen in Bändern (Abschnitt 3.5.3) und eine gegen Hallunempfindliche Lokalisierung mit einer Modellierung des precedneceeffect (Abschnitt 3.5.4).

3.5.1 Merkmale für robuste Spracherkennung

Anhand der Signalenergien wird eine Zeit×Frequenz-Maske für jedenSprecher berechnet. Die Elemente repräsentieren die Zugehörigkeit Sprecherzuordnung

des entsprechenden Signalanteils zu dem Sprecher. Ist ein Matrixele-ment null, so fehlt die entsprechende Information über den jeweiligenSprecher, das Signal an dieser Stelle ist aufgrund von Störungen un-zuverlässig. Um diesen Umstand zu modellieren wurde das Verfahrender missing data-Spracherkennung eingeführt [RSS04]. Dabei werden missing data

meist fehlende Bereiche durch Integration über die Randverteilung er-setzt, was einer impliziten Annahme von Gleichverteilung für fehlendeInformation entspricht. Die missing data-Wahrscheinlichkeit für einenMerkmalsvektor x = (xi)i ergibt sich als Mischverteilung

p(x|θ) = ∑k

αk p(x|θ, k) (3.32)

mit der binären Maske m bei der vereinfachten Annahme additivergleichartiger Störungen [HBB06]

p(x|θ, k) = ∏i

(

mi · p(xi|θ, k) +1 − mi

xi

xi∫

−∞

p(xi′|θ, k)dxi

′)

(3.33)

mit Gaußverteilungen ohne (nichtdiagonale) Kovarianzen

p(xi|θ, k) =N (xi; µki, σki) . (3.34)

Als Merkmale für die Spracherkennung können die Komponenten desauditiven Spektrogramms, also die Energien in den Frequenzbändern,direkt verwendet werden. Dazu werden auch sogenannte auditory ratemaps verwendet, welche neuronale Pulse modellieren. Diese werden auditory rate maps

aus der Hilbertumhüllenden der Bandfiltersignale über Tiefpassfilte-rung und Abtastung gebildet. Hier ist die Zuordnung der Zeit×Fre-quenz-Maske zu spektralen HMM-Emissionen direkt möglich.Ein für Spracherkennung häufig verwendetes Merkmal sind die so-genannten mel frequency cepstral coefficents (MFCC). Hier werden die MFCC

Koeffizienten des Spektrums des logarithmierten Bertrages des Mel-Spektrums sowie ihre diskrete Ableitung berechnet [ST95, HAH01].Eine einfache Möglichkeit der Integration ist die Kombination vonspektralen Features nach dem missing data-Ansatz mit den wie üblichberechneten MFCC in einem gemeinsamen Merkmalsvektor [PBB06].Wesentlich aufwändiger ist die Übertragung der spektralen Unsicher-heiten in den cepstralen Bereich, da sich eine Frequenz auf alle MFCCauswirkt. Von Srinivasan wurde ein Verfahren entwickelt, um die

3.5 spracherkennung 43

Page 52: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 28.: CASA Spracherkennung nach Srinivasan und Wang [SSJW06]

Zeit×Frequenz-Maske in den cepstralen Bereich zu transformieren. Esregression trees→ MFCC verwendet Regressionsbäume, um die nichtlineare Transformation au-

tomatisch zu ermitteln [SW07].

3.5.2 Einkanalige Sprechertrennung

Ein komplexes CASA-Modell für Spracherkennung wurde von Sriniva-san, und Wang an der Ohio State University entwickelt. Auch hier wirdeine binäre Zeit×Frequenz-Maske relevanter Ereignisse berechnet undvon einem nachgeschalteten HMM mit MFCC-Merkmalen verarbeitet[SSJW06, SW07].Das in Abbildung 28 skizzierte Modell verwendet eine Gammaton-Filterbank mit 128 Bändern zwischen 50 Hz und 8 kHz. SimultaneGruppierung erfolgt über multiple Pitchtracker für stimmhafte undmultipitch tracking

multiskalische Einsatzfeatures für stimmlose Laute. Mit einem spezi-multiscale onsetdetection ellen Algorithmus [SW06] werden Sequenzen identifiziert. Zeit×Fre-

quenz-Bereiche mit einer positiven Sprachidentifizierung werden ineiner binären Maske vermerkt. Fehlende Werte werden über das miss-ing data-Verfahren mittels Randverteilungen geschätzt. Das Signal fürspectral

reconstruction→ MFCC

jeden Sprecher wird, wo nötig, im Spektralbereich rekonstruiert unddann in MFCC-Merkmale überführt, auf welche ein Standard-Sprach-erkenner angewendet wird. In dem auf der Interspeech 2006 vorge-stellten Experiment wurde auf das Vorkommen eines gewünschtenTrigger-Wortes reagiert und das Signal des dieses äußernden Sprechersgetrennt und klassifiziert, so daß von stream separation gesprochen wer-stream separation

den kann. Dabei wurden Kommandosätze der Form „place blue at f2now“ verwendet.3 Der resultierende Erkenner hat die Performance ei-nes einkanaligen bei ca. 6 dB besseren SNR in Situationen mit zweidurcheinanderredeneden Sprechern und immerhin über 40 % gegen-über 65 % word error rate (WER) bei einem SNR von 0 dB, also gleich-lauten Sprechern [SSJW06].

3.5.3 Nulldurchgangsbasierte Trennung

Anstelle der Verwendung von Halbweggleichrichtung und Korrelationnach dem Jeffress-Colburn Modell mit anschließender Schärfung (Ab-schnitt 3.3.3) kann auch die Bestimmung des Zeitversatzes von Null-

3 Speech separation and recognition competition.http://www.dcs.shef.ac.uk/ martin/SpeechSeparationChallenge.htm

44 stand der technik

Page 53: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

durchgängen zur ITD-Schätzung verwendet werden [HOS95, KAK06,PS06]. Alle zitierten Ansätze verwenden als ITD-Schätzung den Ab- zerocross distance

→ ITDstand der am nächsten benachbarten Nulldurchgänge. Aus diesenwird dann eine Zeit×Frequenz-Maske für missing data-Spracherken-nung geschätzt. Bei vergleichenden Experimenten zeigt sich, dass dieNulldurchgänge mindestens so gut geeignet sind wie die Schätzungdurch Kreuzkorrelation. Die Schätzung kontinuierlicher Masken führtgegenüber binären Masken bei beiden Verfahren zu besseren Ergebnis-sen.Die Implementierung von Kim et al. bestimmt für die Signale bei-der Ohren in 32 gammatongefilterten Bändern mit ERB-verteilten Mit-tenfrequenzen von 200 Hz bis 4 kHz Nulldurchgänge. Für jedes Paar(n, m) von Nulldurchgängen in jedem Band b wird der Zeitversatz(ITD) ∆tb(n, m) und ein Energieverhältnis (IID) ∆pb(n, m) bestimmt.Für das Energieverhältnis wird die Energie in der Umgebung des Null-durchgangs als Quadratsumme bestimmt. Über alle Paare werden die- kombinierte ITD IID

Schätzungjenigen gesucht, welche die geringste Winkeldifferenz implizieren:

margmin |θITD(∆tb(m, n)) − θI ID(∆pb(m, n))|. (3.35)

Aus diesen wird ein Histogramm gebildet. Histogramm-Peaks wer-den als Audioquellen interpretiert. Die Varianz der zugehörigen Null-durchgänge entspricht dabei einer impliziten Schätzung des Signal-Rauschverhältnisses. Die so gefundenen Drehwinkel von stationärenQuellen dienen als Grundlage für die Schätzung der zugehörigen Si-gnalenergie. Die Energie in den Bändern wird zwischen den Null-durchgängen je Quelle über längere Zeitsegmente aufsummiert. Er-reicht die Energie einen Wert von über der Hälfte der Gesamtenergie,so wird in der Zeit×Frequenz-Maske der relative Anteil eingetragen.Diese Masken werden zusammen mit auditory rate maps zur Spracher- auditory rate maps

kennung verwendet. Es wurden verschiedene Spracherkennungs-Ex-perimente mit dem CASA Toolkit auf Ziffernfolgen aus dem TI- Di-gits-Korpus4 durchgeführt. Dabei wurden ein oder zwei Störsprecherin 5° oder 30° Abstand mit −5 bis 20 dB in einer hallfreien Umgebungsimuliert.Das Verfahren wurde mit der kreuzkorrelationsbasierten Schätzung bi-närer Masken verglichen. Wurde die Maskenschätzung für die Kreuz-korrelation vorher nach dem Verfahren von N. Roman [RWB03] mittrainiert, so erreicht diese vergleichbare Genauigkeit, andernfalls bliebdie Kreuzkorrelation hinter der Auswertung von Nulldurchgängen zu-rück. Bei einem gleichlauten störenden Sprecher erreichen die Null-durchgänge wie die trainierte Kreuzkorrelation 7 % WER, die untrai-nierte Kreuzkorrelation hingegen nur 40 %. Für zwei störende Sprechererreicht das Nulldurchgangsverfahren 17 %, die trainierte Kreuzkorre-lation 21 % und die untrainierte 54 %. Binäre Masken sind in allen Fäl-len schlechter.Die Implementierung von Park et al. [PS06] schätzt kontinuierlicheZeit×Frequenz-Masken nur mit ITDs. Als Spracherkenner wird einkontinuierliches HMM mit MFCC als Merkmalen verwendet (CMUSPHINX-III). Hier wird für einen gleich lauten Störsprecher 12 % WERerreicht, gegenüber 23 % für Kreuzkorrelation und 90 % ohne binau-rale Verarbeitung. Binäre Masken sind in allen Fällen schlechter. In T60 = 0

keiner Evaluation wurde Hall simuliert.

4 Der TI Digits enthält Aufnahmen von 77 Zahlensequenzen von 326 Sprechern [LDC].

3.5 spracherkennung 45

Page 54: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 29.: Hallrobuste neurobioloisch inspirierte Spracherkennung [PBW04]

3.5.4 Korrelationsbasierte Trennung

Eine der wenigen erfolgreichen Anwendungen eines CASA-Modellsbei Nachhall wurde 2004 von Palomäki et al. vorgestellt [PBW04]. Hierwerden IID- und ITD-Cues mit einer Modellierung des precedence effectzur Schätzung des Drehwinkels zweier stationärer Quellen verwendet.Die Schätzung verlässlicher Zeit×Frequenz-Bereiche wird für missingdata Spracherkennung genutzt.Die Signale der zwei Ohren eines Kunstkopfes werden mittels einerkomplexen Gammatonfilterbank mit ERB-verteilten Mittenfrequenzenzwischen 50 Hz und 8 kHz in 32 Bänder aufgeteilt. Die Signale in denBändern werden einweggleichgerichtet. Davon wird die Hilbertumhül-lende berechnet, deren Verhältnis in Bändern über 2.8 kHz wird als IIDcue verwendet. Die Hilbertumhüllenden dient auch der Simulation desprecedence effect bei der Bestimmung der ITDs. Das Umhüllendensignalprecedence effect

wird mit einem 15 ms-Tiefpassfilter geglättet und vom Bandsignal sub-trahiert. Nur positive Differenzen werden zur Kreuzkorrelation ver-wendet, welche in 10 ms-Schritten per FFT berechnet wird. Da für tiefeFrequenzen sehr breite Peaks auftreten, wird die Korrelationsfigur zueinem pooled sekleton cross-correlogram geschärft, indem lokale Peakspooled sekleton

cross-correlogram mit Gaußfunktionen multipliziert werden (Abschnitt 3.3.3). Die Kor-relelogramme werden über alle Zeitframes und Frequenzbänder ge-mittelt, was stationäre Quellen voraussetzt. Die beiden größten Peaks θs, θn

in dem gemittelten Korrelelogram werden als Position von Signal undStörer interpretiert. Damit wird eine binäre Zeit×Frequenz-Maske ge-schätzt. Ein Einswert wird dort angenommen wenn vier Bedingungentime-frequency mask

erfüllt sind: Der Wert des Korrelelogramms an der SignalpositionCC(θs) > CC(θn)

ITD 7→ θs ist höher als eine Schwelle und höher als der an der Störerposition.Des weiteren muss der ILD-Wert bis auf 0.5 dB einem bandabhängigenILD 7→ θs

Template für die Signalposition entsprechen. Die Energie je Band, über200 ms-Fenster gemittelt, muss über einer Schwelle von −11 dB liegen.Energie

Der normalisierte Wert der Hilbertumhüllenden wird als Merkmal fürden Spracherkenner verwendet.In Experimenten mit zwei gleichzeitigen Sprechern und variablemHall wurde das System mit einem einkanaligen MFCC Spracherken-ner auf Ziffernfolgen aus dem TI-Digits-Korpus verglichen. In den Si-besser als

Mono MFCC ASR mulationen ohne Hall (T60 = 0 s) erreicht das System 7 % gegenüber94 % WER bei 0 dB SNR, bei mittlerem Nachhall (T60 = 0.3 s) 45 % ge-T60 = 0.3 s

genüber 86 % WER. Das binaurale System zeigt also deutlich bessereErgebnisse. Die WER steigt dabei für Sprecherabstände von wenigerals 40° und 20 dB SNR [PBW04].

46 stand der technik

Page 55: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

4N E U R O - F U Z Z Y - L O K A L I S I E R U N G

Im Rahmen der Arbeit wurde ein Verfahren zur Lokalisierung vonSprechern in realen Umgebungen entwickelt. Dabei wurden nebentechnischen Lokalisierungsverfahren insbesondere auch aktuelle Er-kenntnisse der Neurobiologie und Kognitionspsychologie über dasmenschliche Hören zu Grunde gelegt.Basierend auf umfangreichem Wissen über die Natur der Sprache unddas menschliche Hören wurden vielfältige Sprachverarbeitungsyste-me im Rahmen der kognitionspsychologischen Theorie der AuditoryScene Analysis (ASA) realisiert [WB06]. Diese sind in erster Linie auf ASA

die Imitation der menschlichen Fähigkeiten ausgerichtet. Ein Großteilder biologisch inspirierten Systeme arbeitet nur in Simulationen undhallfreien Umgebungen. Viele reale Umgebungen in unserer moder-nen Umwelt sind Innenräume, hier stellt der Hall eine der größten Innenräume

NachhallHerausforderungen für Lokalisierungssyteme dar. Technische Lokali-sierungsansätze erreichen gute Ergebnisse im realen Einsatz unter derVerwendung von Mikrophonarrays für allgemeine Lokalisierungsauf-gaben [BW01].In dem hier entwickelten System wurde vom menschlichen Vorbild in-soweit Abstand genommen, dass kein Kunstkopf mit zwei Ohren, son-dern ein Mikrophonarray zur Aufnahme des Signales verwendet wird. Mikrophonarray

Durch die pragmatische Kombination von Modellen aus der neurobio-logischen Forschung und technischer Lokalisierungsverfahren ist das Neurobiologie

System robust gegenüber Hall und Störungen. Zum einen erlaubt derEinsatz von Mikrophonarrays eine robuste Schätzung des Quellortesüber Ankunftszeitdifferenzen, zum anderen erlaubt die Übertragung TDOA

des evolutionär optimierten menschlichen Hörapparates in ein Com-putermodell die Nutzung eines auf menschliche Sprache optimiertenSystems. Schließlich führt die konsequente Einschränkung auf klar lo-kalisierte Sprachanteile durch die strikte Anwendung von technischen klar lokalisierte

SprachteileRahmenbedingungen und von Sprachheuristiken zu wenigen aber klarlokalisierten Ergebnissen im Sinne eines glimpsing model [Coo06]. glimpsing model

Das entwickelte Verfahren realisiert die Lokalisierung von Sprechernmit der erfolgreichen Kombination von technischem und biologischemWissen. Die konsequente Beschränkung auf wesentliche, robuste Merk-male, die Entwicklung optimierter Algorithmen sowie die Anwen-dung optimierter Bibliotheken zur Signalverarbeitung und Mehrkern-prozessoren ermöglichen die Lokalisierung in Echtzeit auf aktullen Echtzeit

Rechnern.

4.1 verarbeitungsstruktur

Das System verwendet zur Signalaufnahme ein zirkuläres Mikropho-narray, das auf einem Konferenztisch zwischen den Sprechern ange-ordnet wird. Die Verarbeitung erfolgt in den in Abbildung 30 skizzier-ten sechs Schritten: In Anlehnung an die Frequenz-Orts-Transformati-on in der menschlichen Cochlea werden die Signale in Frequenzbän-der aufgeteilt wie in Abschnitt 4.3.1 beschrieben. Analog zur Kodie-rung der Signalphase und -energie im Hörnerv werden Rechteckim-

47

Page 56: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 30.: Verarbeitungsstruktur (von links nach rechts): Mikrophonarray, Filterbank, Spikeerzeugung,Korrelation, Rückprojektion, Fuzzy-Kombination und Sprachenergiedetektion.

pulse generiert (Abschnitt 4.3.2). Hier führen nur stark modulierteAnfangspeaks zur Impulserzeugung. Diese werden einer korrelativenAnalyse in Anlehnung an die Verarbeitung der auditory pathways un-terzogen. Dabei werden von Band- und Mikrophonabstand abhängigeFensterlängen zum Erhalt eindeutiger Peaks verwendet (Abschnitt 4.4).Die Korrelationswerte werden von den Ankunftszeitverzögerungen zuQuellwinkeln zurückprojeziert (Abschnitt 4.5.1). Danach werden dieWerte der einzelnen Mikrophonpaare mit einer robusten Fuzzy-Kom-bination zu gemeinsamen Quellpositionshypothesen kombiniert (Ab-schnitt 4.5.2). Diese werden über Zeitfenster und alle Frequenzbänderzusammengefaßt. Über die Zeit werden schliesslich die Winkel von ak-tiven Sprechern als Peaks über die Quellwinkel identifiziert (Abschnitt4.6).

4.2 signalaufnahme

Die hier vorgestellte Implementierung lässt sich prinzipiell auf beliebi-ge Mikrophonanordnungen anwenden. Für die Lokalisierung von Ge-sprächspartnern in einem Konferenzraum wird ein zirkuläres Mikro-phonarray gewählt, welches auf dem Tisch zwischen den Sprechernpositioniert wird wie in Abbildung 31 dargestellt. Um Signale mit gu-ter Phasenauflösung zu erhalten, werden die Mikrophone mit einerAbtastrate von fs = 48 kHz abgetastet.

4.2.1 Mikrophonarray

Das Mikrophonarray besteht aus acht äquidistant auf einem Kreis an-geordneten omnidirektionalen Mikrophonen. Die äquidistant planareAnordung ist auf die Lokalisierung über den Drehwinkel abgestimmt.zirkular

äquidistantesMikrophonarray

Die Mikrophone spannen vier Subbänder mit unterschiedlichen Eigen-schaften auf wie in Tabelle 1 aufgelistet. In der Skizze am Rand sindjeweils die Mikrophonpaare eines Subbands mit einem Strichmusterverbunden. Bei Verwendung eines kleinen Radius von ra = 0.05 m liegtdie Grenze fa für räumliches Aliasing zwischen 3.4 kHz und 9 kHz, so

Paare |i − j| d [m] fa [kHz] 2τmax

4 4 2r = 0.10 3.43 28

8 3 1.84r = 0.92 3.73 26

8 2 1.42r = 0.71 4.83 20

8 1 0.72r = 0.36 9.03 11

Tabelle 1.: Subbänder des zirkulären Mikrophonarrays

48 neuro-fuzzy-lokalisierung

Page 57: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 31.: Platzierung des Mikrophonarrays im Konferenzszenario auf dem Tisch zwischen den Spre-chern. Die zirkulär äquidistant angeordneten Mikrophone erlauben die Lokalisierung desQuellwinkels, ein Winkel α1 zur Quellposition q1 ist exemplarisch eingezeichnet.

dass alle ersten und zweiten Formanten durchgängig aufgelöst wer-den. Bei einer Abtastrate von 48 kHz entsprechen 11 bis 28 Samplesder physikalisch maximal möglichen Laufzeitdifferenz zwischen zweiMikrophonsignalen in den Subbändern.

4.2.2 Platzierung

Das Mikrophonarray wird so platziert, dass es möglichst koplanar undnah an allen möglichen Sprecherpositionen ist. Die Präzision der Dreh-winkellokalisierung nimmt mit der Neigung und der Entfernung zumSprecher ab. Für gute Ergebnisse ist das Array so zu platzieren, dasssich die Sprecher in einer Neigung von −25° bis 25° aufhalten. Diemaximale Sprecherentfernung sollte im Bereich des doppelten Hallra-dius 2 · rH liegen (vgl. Abschnitt 2.2.2), was in üblichen Konferenzräu-men zwischen 2 m und 4 m entspricht. Dazu ist ein Mindestabstandvon 0.5 m zu beachten, um die Fernfeldannahme nicht zu verletzen(vgl. Abschnitt 2.2.3). Bei kleineren Abständen führt die Sphärizität der Sprecher in 0.5 - 3 m,

−25° - 25°Wellenfronten zu Laufzeit- und Amplitudenunterschieden, die vomAbstand und der relativen Position der Mikrophone abhängen. DieseForderungen sind in den meisten Konferenzsituationen leicht durcheine zentrale Positionierung des Mikrophonarrays auf dem Konferenz-tisch zu erreichen.

4.3 cochlea-modell

Das verwendete Modell der menschlichen Cochlea besteht aus einerFilterbank und einer modulationsbasierten Generierung von Rechteck-impulsen. Als Modell der frühen neuronalen Verarbeitung werden diePulse mit einer Betonung des Einsatzes generiert und dann korreliert.Die onset dominance wird von einigen Neurologen als wesentlicher Me- onset dominance

chanismus für das Hören und Lokalisieren in Umgebungen mit star-kem Hall beim Menschen gesehen [DIH+09]. In der Kongitionspycho-logie wird die Auswertung der „ersten Wellenfront“ als precedence effect precedence effect

bezeichnet [WB06, S. 26ff.] und als wesentlicher Mechanismus der Lo-kalisierung bei Hall angesehen.

4.3 cochlea-modell 49

Page 58: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

4.3.1 Filterbank

Die Frequenz-Orts-Transformation auf der Basilarmembran wird nachdem Patterson-Holdsworth-Modell mit einer Filterbank nachgebildet[PNSHR88]. Dabei wird eine Reihe von Gammatonfiltern vierter Ord-nung eingesetzt (vgl. Abchnitt 3.3.1). Die Übertragungsfunktion einesGammatonfilter

Gammtonfilters n-ter Ordnung mit einer Mittenfrequenz fb und Band-breite wb entspricht im wesentlichen einem Bandpassfilter in Form ei-ner Exponentialfunktion [UA99]

G(b)(n)

( f ) =

(

1 +ı( f − fb)

wb

)−n

, (4.1)

hier bezeichnet ı die imaginäre Einheit. Der Amplitudengang für einGammatonfilter vierter Ordnung lässt sich so als

G(b)( f ) =w4

b∣∣∣(wb − ı ( f − fb))

4∣∣∣

=w4

b√

rg( f )2 + ig( f )2(4.2)

mit rg( f ) = w4b − 6w2

b( f − fc)2 + ( f − fb)

4

und ig( f ) = 4(

wb( f − fc)3 − ( f − fb)w3

b

)

approximieren. Entsprechend der Außen-Mittelohr Übertragung kanndie Maximalamplitude der Bänder nach der Näherung von Terhardtals

A(

f · 103)

= − 3.64 f−0.8 + 6.5e−0.6( f−3.3)2 − 10−3 f 4 (4.3)

approximiert werden [Ter79]. Damit ergibt sich als Filterdefinition füreine auditive FilterbankFilterdefinition

H(b)( f ) = 10(A( fb)/20)G(b)( f ). (4.4)

Die Positionierung der Mittenfrequenzen fb erfolgt dabei äquidistantnach der equal resonance bandwidth (ERB)

ERB( f ) := 21.366 log((

f · 4.368 · 10−3)

+ 1)

. (4.5)

Nach Glasberg und Moore [GM90] wählt man diese nach Gleichung4.5 mit wb = ERB ( fb). Zur Lokalisierung von Sprechern anhand derGlasberg&Moore-

Parameter typischen Sprachenergien werden nb = 16 Frequenzbänder mit Mit-tenfrequenzen fb zwischen 0.2 kHz und 3.6 kHz eingesetzt. Abbildung32 zeigt die Amplitudengänge dieser Filterbank.

Die Filter werden dabei mit schneller Faltung via FFT-Overlap-Addrealisiert [Smi99, S. 180ff.]. Das Zeitsignal y[t] wird in N = 2ν Sampleslange Zeitfenster mit 50 % Überlappung, also in t = k · 2ν−1 Intervallen,mit einem Cisoid-Fenster

w[n] = sin(

πnN − 1

)

(4.6)

multipliziert und über eine schnelle Fouriertransformation in den Fre-quenzbereich überführt

Y[ f ] ◦−• y[t]w[t] . (4.7)

50 neuro-fuzzy-lokalisierung

Page 59: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

−12

−24

−36

f [kHz]

H(b

) (f)

[dB

]

Abbildung 32.: Frequenzgang der auditiven Filterbank aus 16 Gammatonfiltern mit Mittenfrequenzen fb =0.2, . . . , 3.6 kHz mit der exponentiellen Näherung und Bandamplituden nach der Außen-Mittelohr-Übertragungsfunktion.

Das Spektrum wird für jedes Band mit dem Frequenzgang nach Glei-chung 4.4 multipliziert und mit der inversen Transformation in denZeitbereich zurücktransformiert:

y(b)[t] •−◦ Y[ f ]H(b)[ f ] , (4.8)

wo aufeinander folgende Zeitfenster überlappend zu einem kontinu-ierlichen Zeitsignal addiert werden.

Durch diese Berechnungsweise bleiben die Phasen des Signales in denBändern zueinander synchron, was wesentlich für die nachfolgendeLaufzeitauswertung ist. Durch Verwendung der hochoptimierten lib-

FFTW [FJ05] ist dies in etwa gleich schnell wie die gebräuchliche Reali-sierung mit IIR-Filtern [Sla93] ohne Phasenkompensation. Zur Erzeu-gung linearphasiger Signale wird bei Verwendung von IIR-Filtern übli-cherweise eine zweite Filterung des zeitlich invertierten Signales vorge-nommen [SGT07]. Damit ist diese Variante sowohl langsamer als auchnicht direkt online-fähig.

4.3.2 Impulserzeugung

Zur Modellierung der neuronalen Verarbeitung werden in den Bän-dern schmale Rechteckimpulse bei Signalmaxima generiert, welche diePhase und Energie des Signales repräsentieren. Die Auswertung vonMaxima ist gegenüber anderen Ansätzen störresistenter, eine derarti-ge Erzeugung phasenstarrer Impulse bildet auch beim Menschen die phase locking

Basis der Lokalisierung [Gro03]. Der Mittelwert des gleichgerichteten Peak over Average

Signales

y[t] =1

L + 1

L−D

∑l=−D

|y[t + l]| (4.9)

wird als moving average über L = fs · 30 ms entsprechend ca. zwei Pitch-perioden gewonnen, um die aktuelle Stimmlautstärke wiederzugeben.Der Lesbarkeit zuliebe wird der Bandindex (b) in diesem Abschnittweggelassen. Die Differenz

y[t] :=y[t] − y[t] (4.10)

4.3 cochlea-modell 51

Page 60: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

(a) Bestimmung der Peakposition pn (b) Rechteckimpuls s[t] (c) Onset-Dominance

Abbildung 33.: Erzeugen eines Rechteckimpulses mit dem Peak-over-Average Verfahren. Über den Vergleichdes Mikrophonsignales y[t] mit seinem Mittelwert y[t] werden modulierte Intervalle [un, dn]bestimmt (a). Die Position des höchsten Wertes pn bestimmt die Phase, die Differenzam-plitude in dem Intervall die Höhe hn des generierten Impulses (b). Durch Verschieben desMittelwertes ragen die ersten Schwingungen stärker heraus (c) und es kommt hier vermehrtzur Impulsgenerierung.

wird als Peak-over-Average-Modulationsmaß berechnet. Durch eine Ver-schiebung des Mittelwertes um D = fs · 3 ms wird bereits monau-ral auf starke Einsätze (onsets) folgender Hall unterdrückt, wie diesnach Ansicht einiger Neurologen im Cochlear Nucleus (CN) erfolgt[BvH07]. Zusammen mit der nachfolgenden Korrelation ist dies aucheine pragmatische Umsetzung des precedence effect ähnlich der von Pa-precedence effect

lomäki et al. [PBW04]. Positive y[t]-Intervalle [un, dn] enthalten onsetshinreichender Modulation. Diese sind leicht zwischen den Nulldurch-gängen der Signaldifferenz zu identifizieren:

Iy =

[u, d]

∣∣∣∣∣∣∣∣

y[t] > 0 ∀u<t<d

∧ y[u − 1] ≤ 0

∧ y[d + 1] ≤ 0

. (4.11)

Die Maximumpositionen (Peak-over-Average Positions, PoAP)

tPoAP y[t] :=

{

pn =un ≤ t ≤ dn

argmax y[t] | [un, dn] ∈ Iy

}

(4.12)

werden nun als Position des höchsten Wertes von y[t] in den Interval-len [un, dn] bestimmt wie in Abbildung 33 dargestellt. Dabei kodierendie pn die Phase des Maximums des Eingangsignales, wie dies auchphase locking

bei den Spike-Trains im Hörnerv durch deren Phase geschieht. Als wei-tere Bedingung für signifikante Sprachenergie werden nur Positionenpn verwendet, bei denen das Energieverhältnis

20 log y[pn] − 20 log y[pn] > thmod (4.13)

hinreichend groß ist. Die Modulationsschwelle thmod wird entspre-chend der Modulation typischer starker Sprachbestandteile auf 9 dBgesetzt.Die Höhe des Rechteckimpulses repräsentiert die Signalenergie, wiesie im Hörnerv durch die Spikeanzahl kodiert ist [Han89]. Die Höheintesity coding

hn = 2 fb/1000dn

∑t=un

(yi[t])0.5 (4.14)

eines Rechteckimpulses wird als Summe der Wurzeln der Peak-over-Average-Werte bestimmt. Dazu wird eine Emphase zur Equalisierungüber die Frequenzbänder ergänzt, die zu gleichstarken Korrelations-werten in allen Bändern führt.

52 neuro-fuzzy-lokalisierung

Page 61: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Die Breite des erzeugten Rechteckimpulses wurde heuristisch auf50 µs in Analogie zur menschlichen neuronalen Verarbeitung fixiert.Zu große Breiten erzeugen unscharfe Korrelationsfiguren, zu schmale Rechteckimpuls

Breiten verhindern die Korrelation von Signalen mit kleinen Phasen-unterschieden. Das Impulsfolgensignal ergibt sich so zu

si[t] = ∑n

hn ⊓25 (t − pn) (4.15)

mit ⊓l (t) :=

{

1 t ≤ l fs10−6

0 sonst.

Aus Effizienzgründen wird in der Implementierung für die Impuls-folgen kein Zeitsignal, sondern eine Liste der Positionen und Höhen(pn, hn) in einer indizierten Datenstruktur verwendet.

4.4 modell neuronaler korrelation

Entsprechend dem Modell der neuronalen Korrelation von Jeffress[Jef48] werden die Signale eines Mikrophonpaares in jedem Fequenz- Jeffress Model

band gefaltet. Die in kurzen Zeitfenstern akkumulierten Werte sindabhängig von der modulierten Sprachenergie mit einem bestimtenZeitversatz. Die Rechteckimpulse ergeben hier eine scharfe Korrela-tionsfigur mit deutlich entfernten, fluktuierenden Nebenmaxima. Sokann hier eine ITD-Schätzung erfolgen, ohne dass eine Schärfung zueinem skeleton cross-correlogram nötig ist (vgl. Abschnitt 3.3.3). Diesewird von vielen CASA-Modellen verwendet, um die Korrelationsfigurvon Halbweggleichgerichteten Signalen auszuwerten [PBW04, RW08].Bei der Faltung werden je nach Mikrophonpaar und Frequenzbandunterschiedlich lange Fenster gewählt, um Aliasing zu vermeiden.

4.4.1 Aliasing

Die Länge der Korrelationsfenster wird hierbei band- und mikrophon-paarweise festgelegt, um zwei Arten von Aliasing zu minimieren: Zumeinen räumliches Aliasing, welches auftritt, wenn eine Wellenlängekürzer ist als der Abstand der beiden Mikrophone und zum anderenharmonische Fehler, die auftreten wenn mehr als eine Schwingungin das Korrelationsfenster fällt. Als Bandgrenzen der Gammatonfilterwerden die Frequenzen fb ± 2wb angenommen, hier ist die Dämpfunggrößer als 24 dB.Räumliches Aliasing wird durch Einschränkung der korrelierten Mi- räumliches

Aliasingkrophonpaare (i, j) auf diejenigen erreicht, welche die Bedingung

P(b) =

{

(i, j)∣∣ ‖mi −mj‖ <

cfb + 2wb

}

(4.16)

erfüllen, dass die kürzeste Welle im Band mindestens so breit ist wieder Mikrophonabstand. Hier sind die Mikrophonpositionen mit miund mj bezeichnet und mit c die Schallgeschwindigkeit.Durch die Selbstähnlichkeit des Signals treten bei der Korrelation har-monischer Fehler auf. Hier führen ähnliche Signalteile, ebenso wie die harmonische Fehler

gleichzeitg geäußerten, zu Maxima in der Korrelation beider Signale.Um harmonische Fehler zu reduzieren, wird die Größe des Korrelati-onsfensters als Summe der maximalen Pitchperiode T0 = 14 ms (ent-

4.4 modell neuronaler korrelation 53

Page 62: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

sprechend einer minimalen Stimmtonhöhe von etwa 70 Hz, vgl. Ab-schnitt 2.1.2) des Mikrophonabstandes und zwei maximalen Wellenen-längen zu

K(b)(i,j) =

(

T0 +‖mi −mj‖

c+

2fb − 2wb

)

fs (4.17)

bestimmt. Als Vorschub der Korrelationsfenster wird S = fs · 20 msgewählt.

4.4.2 Impulskorrelation

Die Faltung von Impulspaarfolgen (pi, hi) und (pj, hj) in einem Zeit-fenster k wird explizit berechnet: Die Faltung zweier Rechteckimpulsemit den Amplituden hi, hj ergibt ein Dreieck der Höhe hihj. Die Sum-me aller so bestimmten Dreiecke entspricht somit der Faltung allerRechtecke. So kann zur Berechnung der Korrelation für jedes Paar vonImpulsen aus den zwei Folgen ein Dreieckimpuls aufaddiert werden:

r(b)ij [k, τ] = ∑

(pi ,hi)∈s(b)i ,(pj ,hj)∈s(b)

j

(∧25(τ − pi)hihj + ∧25(pj − τ)hjhi)

mit ∧l (t) :=

|t−l′ |l′ |t − l′| < l′, l′ := l fs10−6

0 sonst.(4.18)

Experimente zeigen, dass dies für die dünn besetzen Impulsfolgenmindestens so effizient berechenbar ist wie die Faltung per Fourier-transformation. Durch Verwendung der Datenstruktur mit indiziertenImpulspositionen ist dies in Algorithmus 1 angebene Verfahren deut-lich schneller.

4.5 rückprojektion und kombination

Die ermittelten Zeitverzögerungen werden auf Drehwinkel zurückpro-jeziert (Abschnitt 4.5.1). Die Projektionen aller Mikrophonpaare wer-den dann zu einer gemeinesamen Quellpositionsschätzung kombiniert(Abschnitt 4.5.2).

4.5.1 Rückprojektion

Wird das Array auf dem Tisch platziert, wie in Abbildung 31 darge-stellt, kann man davon ausgehen, dass sich die Sprecher anhand desDrehwinkels trennen lassen und dort nicht überlappen. Als möglicheSprecherpositionen sind nur flache Neigungswinkel interessant.Die eintreffenden Wellenfronten können nach der FernfeldannahmeFernfeld

als quasi parallel angesehen werden, daher kann die Entfernung derQuelle nicht geschätzt werden. Die auftretenden Ankunftszeitverzöge-rungen aus einer festen Richtung sind auf die Genauigkeit eines Ab-tastwertes identisch für r ≫ 5ra. Den Abstand des Mikrophonpaar-mittelpunktes vom Mikrophonarraymittelpunkt kann man ebenfallsnach der Fernfeldannahme vernachlässigen. Für flache Neigungswin-kel ist die Neigungsschätzung durch ein planares Array extrem unge-nau, was auch die dilution of precison wiedergibt [BH99]. Die Zeitver-dilution of precison

54 neuro-fuzzy-lokalisierung

Page 63: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Input : zwei Impulsfolgen si = (pi, hi), sj = (pj, hj)Output : Korrelation r in überlappenden Fensternforeach Fenster k do

ps = kSpe = ps + Kr[k, τ] = 0

Li = Lj = ∅

pi = FirstNonzeroPositionGreater( si , ps )while pi < pe do

Li = Li ∪ (pi, hi) // Impulse in sipi = NextNonzeroPosition( si )

endpj = FirstNonzeroPositionGreater( sj , ps )while pj < pe do

Lj = Lj ∪ (pj, hj) // Impulse in sj

pj = NextNonzeroPosition( sj )endforeach (pi, hi) ∈ Li do

foreach (pj, hj) ∈ Lj do

τ = pi − pj // TDOA

if |τ| < τmax thenh = hihj // Dreieck addieren

r[k, τ] = r[k, τ] + hr[k, τ ± 1] = r[k, τ ± 1] + 2/3hr[k, τ ± 2] = r[k, τ ± 2] + 1/3h

end

end

end

endAlgorithmus 1: Schnelle Impulskorrelation

zögerungen τ jedes Mikrophonpaares werden daher auf Drehwinkel TDOA

zurückprojeziert, welche dem Einfallswinkel in der Mikrophonarray-ebene entsprechen. Für einen Drehwinkel α und das Mikrophonpaar(i, j) ergibt sich so die Ankunftszeitdifferenz (TDOA)

τij(α) =‖mi −mj‖ cos

(α − βij

)fs

c(4.19)

abhängig vom Abstand der Mikrophone und der relativen Ausrich-tung des Mikrophonpaares bezogen auf ein beliebiges Paar, etwa (0, 4),also

βij =∡(mimj, m0m4

)= arccos

(

(mj −mi)(m4 −m0)

‖mj −mi‖‖m4 −m0|

)

(4.20)

wie in Abbildung 34 skizziert. Somit erhält man durch Umformungvon Gleichung 4.19 den aus einer Ankunftszeitdifferenz τ an einemMikrophonpaar geschätzten Quellwinkel Quellwinkel

α ∈ {α′, π − α′}, α′ = arccos

(

c τ

‖mi −mj‖ fs

)

− βij. (4.21)

4.5 rückprojektion und kombination 55

Page 64: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 34.: Parallele Schallfront, die auf ein Paar (i, j) des zirkulären Mikrophonarrays trifft. Eingezeich-net sind die relative Ausrichtung βij zum Paar (0, 4) und die dem Ankunftszeitversatz ent-sprechenden Winkel α′ und π − α′.

So können die Korrelationsergebnisse je diskreter Ankunftszeitdiffe-renz in die interpolierte Energie je Quellwinkel umgerechnet werden:

e(b)ij [k, α] = r(b)

ij [k, τij(α)]. (4.22)

Für diskretisierte Quellwinkel werden Energiewerte durch lineareInterpolation zwischen den Energiewerten für einen Halbkreis undanschließende Spiegelung berechnet. Die Zeitverzögerungen entspre-chen zwei Drehwinkeln für eine Neigungsebene, diese Mehrdeutigkeitwird durch die Kombination nicht kolinearer Mikrophone aufgelöst.

4.5.2 Kombination

Zur kombinierten Schätzung der Quellposition werden die Werte dereinzelnen Mikrophonpaare kombiniert. Bei hinreichender Energie imQuellsignal x[t] an einer Position α muss der Energiewert für alle Paarehoch sein. Die Addition bei der SPR-PHAT führt damit für jeden ech-ten Quellwinkel zu einem hohen Wert, jedoch treten auch eine Vielzahlungewollter sekundärer Peaks (ghosts) auf. Betrachtet man die Ener-giewerte als Wahrscheinlichkeiten und die Mikrophonpaare als unab-hängige Messungen, ist das Produkt der Energie der Paare die Ver-Verbund-

wahrscheinlichkeit bundwahrscheinlichkeit der Präsenz einer Quelle an α. Ein einfachesProdukt macht die Kombination allerdings empfindlich gegen kleins-te Abweichungen in Signal und Geometrie. Als robuste produktartigeKombinationsvorschrift wird eine Fuzzy-t-Norm verwendet. Die Fa-Fuzzy

Kombination milie hγ(x, y) der Hamacher-t-Normen (Gleichung 3.12) wurde hier-zu erstmals von P. Pertilä et al. als Kombinationsmethode verwendet[PKV08]. Für das hier beschriebene System ist die von γ = 0.3 be-stimmte t-Norm gut geeignet. Höhere Werte für γ reduzieren die Zahlder Peaks, Kleinere führen zu ungewollten sekundären Peaks. Durch

56 neuro-fuzzy-lokalisierung

Page 65: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Input : Energiesignale E = {eij}Output : Kombination ewhile |E| > 2 do

E′ = ∅

for i ∈ {0 . . . |E|/2} doe′ = CombinePair( e[2i], e[2i + 1] ) // Algorithmus 3

E′ = E′ ∪ e′endE = E′ // neue Blattebene

ende = E[0]

Algorithmus 2: Paarweise Kombination

Input : zwei Energiesignale ei, ejOutput : Kombination epi = pj = 0pe = min{ LastPosition( ei ), LastPosition( ej ) }e = 0

repeatwhile pi < pj do

pi = NextNonzeroPosition( ei ) // ei holt auf

endwhile pj < pi do

pj = NextNonzeroPosition( ej ) // ej holt auf

endif pj = pi then

e[pj] = hγ(ei[pi], ej[pj]) // kombinieren

pi = NextNonzeroPosition( ei )end

until pi ≥ pe ∨ pj ≥ pe

Algorithmus 3: Kombination eines Paares

iterative Anwendung von hγ wird nun die kombinierte Quellenergieim Zeit×Winkel-Raum berechnet

e(b)[k, α] =⊙

(i,j)∈P(b)

e(b)ij [k, α]. (4.23)

Dies kann einfach als ebenen-weises Zusammenfassen des Binärbau-mes bis zur Wurzel formuliert werden wie in Algorithmus 2 angege-ben.Bei der Kombination kann wie bei der Korrelation der Umstand aus-genutzt werden, dass die Energiewerte dünn besetzt sind, um die Be-rechnung zu beschleunigen. Dazu wurde ein „Wettlaufalgorithmus“zur schnellen Kombination zweier rückprojezierter Impulsfolgen im-plementiert. Da für die Hamacher-, wie für jede Fuzzy-t-Norm dieNullelementeigenschaft hγ(0, x) = hγ(x, 0) = 0 gilt, müssen nur Po-sitionen beachtet werden, bei denen beide Paare von Null verschie-dene Werte haben. Daher wird jeweils in einem Signal die Positionerhöht, bis Sie die Position im anderen eingeholt hat. Sind die Positio-nen gleich, wird e[pj] = hγ(ei[pi], ej[pj]) als Ausgabe berechnet. Algo-rithmus 3 zeigt den entsprechenden Pseudocode.Die pro Zeitfenster kombinierten Ergebnisse e(b)[k, α] sind durch dieonset dominance und die variable Korrelationsfensterlänge und Aus-

4.5 rückprojektion und kombination 57

Page 66: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

wahl alias-freier Mikrophonpaare bereits von vielen Störungen befreit,wie in Abbildung 35 zu sehen.

4.6 lokalisierung von sprechern

Zur finalen Lokalisierung von Sprechern wird Wissen über die Naturdes Sprachsignals, die zeitliche Dynamik und ein Modell der Peakver-teilung eingesetzt. Dabei wird zunächst über ein Zeitfenster gemittelt,dann werden die Frequenzbänder zusammengefasst. Schließlich wer-den mit einem Peakdetektor die Quellwinkel aktiver Sprecher in jedemZeitfenster ermittelt.

4.6.1 Zeitliche Mittelung

Bei starkem Hall ist die Zahl verlässlicher Energiepeaks relativ ge-ring. Es existiert dazu eine Zahl verbleibender unkorrelierter sekun-därer Peaks. Geht man davon aus, dass der Sprecher sich nicht un-gewöhnlich schnell bewegt, so ist die Zahl der seiner Position ent-sprechenden Peaks über einen längeren Zeitraum deutlich höher. DerMittelwert über eine längeres Zeitsegment von M = fs · 1 s Sampleswird als moving average mit einem Viertel Fensterlänge Vorschub vonT = fs · 250 ms berechnet:

e(b)[l, α] =SM

⌈(lT+M/2)/S⌉∑

k=⌊(lT−M/2)/S⌋e(b)[k, α]. (4.24)

Die Summe der Energien in einem längeren Zeitfenster produziertdann an den Sprecherpositionen hohe Peaks, wie in Abbildung 35dzu sehen.

4.6.2 Zusammenfassen der Frequenzbänder

Da alle Frequenzanteile des Signales eines Sprechers durch dieselbeMundöffnung moduliert werden, ist ihre Amplitudenmodulation undinsbesondere ihr Einsetzen (onset) stark korreliert, was von verschiede-nen ASA grouping cues ausgenutzt wird [Bre90, S. 572ff.]. Bei natürli-cher Sprache kann man daher nach der dependency assumption spektra-le Energien als abhängig über die Frequenzbänder betrachten [PK06].Geht man weiter davon aus, dass keine oder nur sehr wenige e(b)[k, α]-Werte von verschiedenen Sprechern kollidieren, und Störungen wieHall als unabhängig über die Frequenz betrachtet werden können, sosind gemeinsame Peaks in verschiedenen Frequenzbändern unabhän-gige „Zeugen“ für Sprache. Dementsprechend produziert die Summedependency

assumtion→ Summation

über die Frequenzbänder Peaks, die sehr wahrscheinlich einen einzel-nen Sprecher repräsentieren.Sowohl der Hall als auch verbleibende harmonische Fehler durch Ali-asing sind abhängig von der Signalfrequenz und erzeugen Peaks inverschiedenen Frequenzbändern an verschiedenen Stellen. Demgegen-über erzeugt die Sprache eines Sprechers an einer festen Position Peaksin verschiedenen Frequenzbändern an derselben Stelle, welche derAnkunftszeitverzögerung entspricht. Viele natürliche Sprachlaute sindspektrale

Verteilung→ Anzahl

über mehrere Frequenzbänder ausgedehnt. Ein längeres Zeitintervallvon Sprache enthält verschiedene Laute und die Übergänge zwischen

58 neuro-fuzzy-lokalisierung

Page 67: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

2.24

1.37

0.80

3.60

0.44

Fre

qu

en

z [

kH

z]

0.20

Winkel [°]

1800-180

180

120

60

-120

Win

kel

[°]

0

-180

-60

82.5 85.080.0 92.5

Zeit [s]

90.0 95.087.5

(a) PoAP Rechteckimpulse D = 15 ms, thmod = 0, feste Fensterlänge K = 40 ms, alle Paare

2.24

0.44

1.37

0.20

3.60

Fre

qu

en

z [

kH

z]

0.80

0

Winkel [°]

-180 180

60

-120

-60

-180

0

120

180

Win

kel

[°]

95.090.080.0 87.5

Zeit [s]

85.0 92.582.5

(b) PoAP Rechteckimpulse D = 15 ms, thmod = 0, variable Fensterlänge K(b)(i,j), alias-freie Paare P(b)

0.44

3.60

2.24

0.20

Fre

qu

en

z [

kH

z]

0.80

1.37

0-180 180

Winkel [°]

60

-120

180

120

-180

-60

0

Win

kel

[°]

92.580.0 95.090.082.5

Zeit [s]

85.0 87.5

(c) onset dominance D = 3 ms, thmod = 9, feste Fensterlänge K = 40 ms, alle Paare

1.37

3.60

0.44

0.80

0.20

Fre

qu

en

z [

kH

z] 2.24

Winkel [°]

-180 1800

0

-180

-60

120

180

60

-120

Win

kel

[°]

82.5 90.0 95.092.580.0

Zeit [s]

85.0 87.5

(d) onset dominance D = 3 ms, thmod = 9, variable Fensterlänge K(b)(i,j), alias-freie Paare P(b)

Abbildung 35.: Hier wird der isolierte und gemeinsame Effekt der Begrenzung der Korrelationsfensterlängeund der Einschränkung auf Mikrophonpaare sowie der onset dominance an einem Beispielgezeigt. Dargestellt ist das kombinierte Korrelationsergebnis für 2 gleichzeitige Sprecher inder FINCA, dargestellt ist jeweils die summierte Korrelationsenergie als Funktion von Winkelund Frequenzband ∑k e(b)[k, α] (links) und von Winkel und Zeit ∑α e(b)[k, α] (rechts).

4.6 lokalisierung von sprechern 59

Page 68: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

denselben, so dass ein großer Frequenzbereich abgedeckt wird. Daherkönnen fehlerhafte Detektionen durch Einführen einer Bedingung fürdie Anzahl aktiver Bänder

B[l, α] := {b | e(b)[l, α] > 0} (4.25)

unterdrückt werden.Aufgrund dieser beiden Überlegungen werden die Ergebnisse der ein-zelnen Frequenzbänder addiert, und bei Summation nur solche Zeit-fenster berücksichtigt, bei denen mindestens ein Viertel der nb Fre-quenzbänder einen Peak aufweist:

e[l, α] =

∑b∈B[k,α] e(b)[l, α] wenn |B[l, α]| ≥ ⌊nb/4⌋0 sonst.

(4.26)

4.6.3 Peaklokalisierung

In einem Kurzzeitsegment erzeugen die je Frame k lokalisierten Ener-gien eines Sprechers schmale Peaks mit kleiner Varianz σs ≤ 5°. Dem-gegenüber haben Störungen und insbesondere Hall eine große Vari-anz σn ≥ 45°. Verschiedene Lokalisierungsverfahren verwenden eineGaußsche Mischverteilung mit entsprechenden Parametern zur Model-lierung der Peakverteilung [LO07, MM08]. Das hier üblicherweise ein-gesetzte maximum likelihood-Clustering erfordert allerdings eine Schät-zung der Anzahl der Sprecher sowie ihrer Position [DHS01, S. 124ff.].Als alternatives Verfahren wird hier stattdessen auf den über M =fs · 1 s Intervallen gemittelten Werten e[l, α] ein Peak der Energie überdie Winkel gesucht, um Sprechermaxima von dem Störungungshinter-grund zu identifizieren. Wie bei der Difference of Gaussians (DoG) inder menschlichen Wahrnehmungsverarbeitung [IKN98] wird hierbeidie Differenz von Werten aus verschiedenen Skalenebenen verwendet.Dazu werden über die Drehwinkel Mittelwerte als moving average mo-dulo 360° berechnet

eA[l, α] =1

A + 1

A/2

∑d=−A/2

e[l, (α + d) mod 360]. (4.27)

Die Differenz

e[l, α] =e4[l, α] − e44[l, α] (4.28)

eines schmalen Mittelwertes, welche die Sprecherpeaks repräsentiert,und eines breiten Mittelwertes, welcher den Störungshintergrund re-präsentiert, induziert wieder modulierte Intervalle

Ie =

[u, d]

∣∣∣∣∣∣∣∣

e[l, a] > 0 ∀u<a<d

∧ e[l, u − 1] ≤ 0

∧ e[l, d + 1] ≤ 0

. (4.29)

Die Position eines Maximums (Peak-over-Average Position, PoAP) ent-spricht einer geschätzten Quellposition:

αPoAP e[l, α] =

{

(l, an) | an =un ≤ a ≤ dn

argmax e[l, a] | [un, dn] ∈ Ie

}

(4.30)

60 neuro-fuzzy-lokalisierung

Page 69: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Hier entsprechen die Winkel an der Position eines aktiven Sprechers zuZeitpunkt l, also der Vektor (l, an)T einer Detektion im Zeit×Winkel-Raum. Abbildung 36 zeigt die Wirkung der drei beschriebenen Nach-verarbeitungsschritte am Beispiel eines Ausschnitts einer Aufnahmein dem Konferenzraum der FINCA [Plö07] mit deutlichem Hall, T20 ≈0.5 s [Hen09, S. 51ff.].

4.7 zusammenfassung

Das im Rahmen dieser Arbeit entwickelte Verfahren lokalisiert Spre-cher in realen Umgebungen mit einer Kombination von neurobiologi-schen und kognitionspsychologischen Modellen mit technischen Me-thoden. Dabei wird ein auf einen Konferenztisch angeordnetes pla-nares zirkuläres Array aus acht omnidirektionalen Mikrophonen ver- Mikrophonarray

wendet, das an einen handelsüblichen PC angeschlossen ist. Die Ver-arbeitung stützt sich auf neurobiologische und kognitionspsychologi- Neurobiologie

sche Erkenntnisse zur Ermittlung besonders robuster Merkmale, al-le Modellparameter sind auf die Lokalisierung von Sprachereignissenabgestimmt. Durch Laufzeitoptimierung sind in Echtzeit kontinuier- Lokalisation von

Sprechernliche Sprecherpositionsschätzungen möglich. Das Verfahren kann inreale UmgebungenHall

verschiedenen realen Situationen zur Sprecherlokalisierung eingesetztwerden, insbesondere auch in Innenräumen mit mittlerem oder star-kem Hall.

4.7 zusammenfassung 61

Page 70: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0

Wi6

kel

[°]

120

-60

180

60

-120

-180

105.0 110.0107.0106.0104.0 108.0

Zeit [s]

109.0103.0 111.0102.0

(a) Korrelationsergebnis der einzelnen Zeitfenster e(b)[k, α]

Win

kel

[°]

180

60

-120

-60

0

-180

120

110.0

Zeit [s]

102.5 107.5105.0 112.5

(b) Zeitliche Mittelung e(b)[l, α] über eine Sekunde

180

120

-60

-180

Win

kel

[°]

0

60

-120

110.0

Zeit [s]

112.5107.5105.0102.5

(c) Zusammengefasste Frequenzbänder e[l, α] mit Energie in mehr als 5/16 Bändern

180

0

�0

-120

Win

kel

[°]

120

-�

0

-180

107.5 112.5105.0

Zeit [s]

110.0102.5

(d) Peaklokalisierungα

PoAP e[l, α]

Abbildung 36.: Lokalisierung der Sprachenergien zweier Sprecher im Konferenzraum der FINCA mit dembeschriebenen System. Beide sprechen weitgehend kontiuierlich, einer sitzt bei −90° am Tisch,der zweite steht bei 130° davor, beide sprechen zueinander in Richtung des beschriebenen Mi-krophonarrays. Dargestellt sind die Daten vor und nach den drei Nachverarbeitungsschrittenzeitliche Mittelung, Zusammenfassen der Frequenzbänder und Peak-Lokalisierung.

62 neuro-fuzzy-lokalisierung

Page 71: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

5E V A L U I E R U N G

Das in dieser Arbeit vorgestellte Verfahren wurde mittels der Evaluie-rung von Einzelkomponenten, Teilmodellen und schließlich dem Ge-samtsystem entwickelt und verfeinert. In diesem Kapitel werden diewesentlichen Experimente und Ergebnisse dargestellt, welche zu demim vorhergehenden Kapitel beschriebenen Verfahren geführt haben.Als Daten für die Entwicklung und für Tests wurden simulierte Kon-ferenzszenarios verwendet. Diese erlauben eine parametrisierte Varia-tion von Hallstärke und Sprecherposition. Zur Evaluierung in realenUmgebungen wurden Daten aus dem AV16.3-Korpus und eigene Auf-nahmen benutzt, die einzelnen Quellen sind in Abschnitt 5.1 beschrie-ben.Bei der Entwicklung des Verfahrens wurden initial einige Komponen-ten isoliert validiert; Abschnitt 5.2 stellt die zugehörigen Überlegungenund Ergebnisse kurz dar. Nach dieser Vorauswahl wurden die Parame-ter für die Gewinnung von Schätzungen der Quellenergie, also der spa-tial likelihood, für die Lokalisierung in einzelnen Zeitfenstern mit zumTeil aufwändigen Simulationen bestimmt; diese sind in Abschnitt 5.3beschrieben. Die Verarbeitung längerer Zeitabschnitte erfolgt mit einermodellbasierten Nachverarbeitung. Anhand von Verarbeitungsergeb-nissen für Simulationen wurden die Modellparameter überprüft undfestgelegt wie in Abschnitt 5.4.1 dargestellt. In welchem Abstand sichgleichzeitige Sprecher trennen lassen, wird in Abschnitt 5.4.2 anhandeiner eigenen Simulationsreihe untersucht.Schließlich wird das Verfahren zur Lokalisierung von Sprechern inAufnahmen aus realen Konferenzräumen angewandt. In Abschnitt 5.5werden die Ergebnisse für die Lokalisierung eines oder mehrerer Spre-cher in einer Reihe typischer Konferenzszenarien dargestellt.

5.1 daten

Die Evaluierung wurde mit Daten aus drei verschiedenen Quellendurchgeführt: Zunächsteinmal Raumsimulationen, die wie in Ab-schnitt 5.1.1 beschrieben erstellt wurden; Dann dem AV16.3-Korpus,der Aufnahmen und Annotationen aus einem Konferenzraum enthält(Abschnitt 5.1.2). Schließlich wurden in eigenen Experimenten Datenwie in Abschnitt 5.1.3 dargestellt aufgenommen.

5.1.1 Simulierter Konferenzraum

Um die Auswirkung vom Hall auf die Lokaliserung genauer bezif-fern zu können, wurde ein 5 × 6 × 2.5 m3 großer Raum mit T60-Zeitenzwischen 0 und 1.5 Sekunden simuliert. Mit dem image-source model(vgl. Abschnitt 2.2.2) wurden Raumimpulsantworten generiert, mitwelchen dann Audiodaten gefaltet wurden [AB79]. Dazu wurde einefrei verfügbare MATLAB-Implementierung von E. Lehmann verwen-det.1

1 http://www.eric-lehmann.com/ism_code.html – Heruntergeladen am 1.12.2009

63

Page 72: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

(a) Positionierung (b) Videobild

Abbildung 37.: AV16.3 Aufnahmesituation [LOGP05] MA1,2 bezeichnen die beiden Mikrophonarrays C1-3bezeichnen die Kameras

(a) Konferenzraum der FINCA (b) Mikrophonarray auf dem Tisch

Abbildung 38.: Konferenzraum und Mikrophonarray auf dem Tisch in der FINCA

5.1.2 AV16.3-Korpus

Der AV16.3-Korpus [LOGP05] enthält Aufnahmen, die mit zwei Mikro-phonarrays in einem Konferenzraum erstellt wurden. Der Grundrissist in Abbildung 37a zu sehen. Zu einigen Sequenzen sind Annotatio-nen mit exakten Sprecherpositionen verfügbar, diese wurden zum Teildurch Tracking eines auf den Kopf des Sprechers geschnallten buntenBalls gewonnen, wie in Abbildung 37b zu sehen. Unglücklicherweiseliegen die Daten nur in 16 kHz Abtastrate vor, so dass die Phasenin-fs = 16 kHz

formation weit unter dem gewünschten Maß liegt. Unter 42 kHz istmit Qualitätseinbußen zu rechnen, unter 32 kHz sinkt die Qualität derSpike-Korrelation rapide. Auch der Radius von ra = 10 cm ist nichtoptimal für den vorgestellten Ansatz, da mit mehr Aliasing und gerin-gerer Kohärenz zu rechnen ist.

5.1.3 FINCA

Die FINCA[Plö07] ist eine smarthouse-Studie im Institut für Roboter-forschung (IRF), welche der Entwicklung intelligenter Umgebungendient [PKCF08]. Sie hat einen Konferenzraum mit einer Größe vonca. 3.7 × 6.8 × 2.6 m3. Das Foto in Abbildung 38a zeigt den verwende-Konferenzraum

ten Konferenztisch und den Raumbereich, in dem sich die Sprecher

64 evaluierung

Page 73: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

1000 2000

x[t]

1000 2000

t

w[t]

-100 0 100

τ

w[t] ⊗ w[t]

1000 2000

t

s[t]

-100 0 100

τ

s[t] ⊗ s[t]

Abbildung 39.: Korrelation eines mit einem 500 Hz-Gamatonfilter gefilterten Rauschpaketes. Dargestellt sinddas Quellsignal x[t], die Einweggleichrichtung w[t] sowie die Peak-over-Average Spikes s[t]und die jeweilige Korrelation für 249 Zeiten entsprechend 3.5 ms bei 48 000 Hz

während der Aufnahmen aufgehalten haben. Messungen ergaben ei-ne Nachhallzeit von T20 ≈ 0.5 s [Hen09, S. 51ff.], damit ergibt sichein geschätzter Hallradius von rH ≈ 0.65 m. Dem entwickelten Sys-tem entsprechend wurde ein auf den Tisch gestelltes Mikrophonarraymit einem Radius von ra = 5 cm verwendet. Die Mikrophone wurdenmit zwei durchbohrten Holzplatten fixiert, wie in Abbildung 38b zusehen ist. Bei den Mikrophonen handelte es sich um omnidirektiona-le Elektret-Kondensatormikrophone vom Typ „ECM-8000“ der Firma Audiohardware

Behringer mit einem nahezu linearen Frequenzgang. Die analogen Mi-krophonsignale wurden mit einer achtkanaligen Soundkarte vom Typ„Delta 1010“ der Firma M-AUDIO digitalisiert. Diese war an einen PCangeschlossen, welcher die digitalisierten Signale mit fs = 48 kHz zurspäteren Auswertung auf die Festplatte aufzeichnete.

5.2 systemkomponenten

Zunächst wurden die Teile des Modells soweit möglich einzelnenFunktionstests unterzogen. In der einem Modell der menschlichenCochlea nachempfundenen Eingangsstufe wurden aus den gefiltertenDaten Signale gewonnen, welche die spike trains im Hörnerv modellie-ren. Dabei wurden die Auswirkung verschiedener Spike-Funktionenuntersucht (Abschnitt 5.2.1). Diese wurden dann ihrerseits in einemKorrelator nach dem Jeffress-Colburn-Modell (vgl. Abschnitt 3.3.3)paarweise zusammengefasst. Es wurden verschiedene Rückprojekti-onsverfahren implementiert (Abschnitt 5.2.2). Die Kombination derMikrophone wurde anhand der sich ergebenden spatial likelihoods fürsimulierte und echte Szenarien untersucht (Abschnitt 5.2.3).

5.2.1 Impulserzeugung und Korrelation

In vielen CASA-Modellen werden durch Einweggleichrichtung undquadratische Kompression Impulse w[t] gewonnen [SW07, RW08]. Die-ser einfache Verarbeitungsschritt liefert eine Repräsentation der Merk-malsenergie und auch der Phase, jedoch ist die Korrelation zweier sobehandelter Signale, wie in Abbildung 39 zu sehen, nicht wesentlich

5.2 systemkomponenten 65

Page 74: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

schärfer als diejenige des unbehandelten Signales. Entsprechend wer-den diese bei der Verwendung zur Lokalisierung zu einem sogenann-ten skeleton cross-correlogram nachgeschärft [PBW04]. Als Alternativezur Einweggleichrichtung können von Nulldurchgängen oder Signal-maxima getriggerte dirac-artige Rechteckimpulse eingesetzt werden(vgl. Abschnitt 3.3.2). Rechteckimpulse s[t] erzeugen eine im Korre-lationsraum scharf definierte Funktion, wie in Abbildung 39 gezeigt.

5.2.2 Rückprojektion und Kombination

Ein Wert der Ankunftszeitdifferenz (TDOA) eines Signales entsprichttime delay of arrival

allgemein einem hyperparaboloiden Ausschnitt des Raumes. Für einzirkuläres Mikrophonarray lassen sich über eine einfache Fernfeldnä-herung die Winkel der Quelle in der Ebene berechnen, wie in Ab-schnitt 4.5.1 beschrieben.Eine einfache Simulation wurde zur Überprüfung der Rückprojektionverwendet. Als Testsignal für die Rückprojektion wurden zwei 10 cmentfernte Mikrophone mit weißem Rauschen auf einer radialen Tra-jektorie in 1 m Entfernung beschallt. Wie in Abbildung 40a zu sehen,steigt die Ungenauigkeit an den endfire-Positionen bzw. der Unendlich-keitsstelle der arccos-Funkion. Die Summe zweier orthogonaler Mikro-phonpaare (Abbildung 40c) zeigt ein eindeutiges Maximum bei demtatsächlichen Quellwinkel. Verwendet man das Produkt wie in Abbil-dung 40d, so verschwinden die ghosts und es ist nur um den tatsäch-lichen Quellwinkel Energie vorhanden, da nur hier beide Paare einenWert ungleich null aufweisen (vgl. Abschnitt 3.1.3).

Kugelrückprojektion

In einem sphärischen Koordinatensystem lassen sich die möglichenQuellpositionen als

q ∈{

u(θ, φ) := (r sin θ cos φ, r cos θ cos φ, r sin φ)T}

(5.1)

angeben. Für r ≫ 5ra sind die Verzögerungen auf Samplinggenauig-keit identisch. Im Fernfeld ist die TDOA also nur noch abhängig vomDrehungswinkel θ und Neigungswinkel φ, und die Entfernung kannfest als r = 1.5 m gewählt werden.

Kreisnäherung und Kugelrückprojektion im Vergleich

Um zu untersuchen, wie sehr die Näherung durch den Kreis die Lo-kalisierungsgenauigkeit beeinträchtigt, wurden diese und eine Kugel-rückprojektion nach Gleichung 5.1 zur Bestimmung der Position vonSprechern in dem simulierten Raum verwendet. In beiden Fällen wur-den alle acht Mikrophone verwendet und per Hamacher t-Norm mitγ = 0.3 kombiniert. Die Sprecher wurden in 10°-Schritten um dasArray angeordnet, als Signal wurden 5 s Sprache verwendet. Die Loka-lisierung erfolgte über die Position des Maximums in der Summe allerFrames. Aufgrund der geometrischen Eigenschaften ist anzunehmen,dass die Genauigkeit des Drehwinkels mit der Neigung fällt, währenddie Genauigkeit der Bestimmung der Neigung zunimmt. Dies läßt sichetwa mit der dilution of precision nachvollziehen [BH99].dilution of precision

Abbildung 41 zeigt den RMS-Lokalisierungsfehler gegen die Neigungaufgetragen. Wie erwartet, ist ein gegenläufiger Trend zwischen Ge-

66 evaluierung

Page 75: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0

Win

kel

[°]

-60

60

-120

180180° 120° -60° -120°

-180

60°

120

5.02.5

Zeit [s]

0.0

(a)Mikrophonpaar in 90◦-Richtung(gespiegelt an der 0◦-Linie)

0°180

120

-60

60

0

-120

-180

180°

Win

kel

[°]

-60° -120°60°120°

0.0

Zeit [s]

2.5 5.0

(b)Mikrophonpaar in 0◦-Richtung (ge-spiegelt an den ±90◦-Linien)

-60° -120°180

-180

-120

0

60

120

-60Win

kel

[°]

180° 120° 60° 0°

2.50.0 5.0

Zeit [s]

(c)Summe der Mikrophonpaare in 0◦-und 90◦-Richtung

-60°0°

120

60

0

-120°

-180

-60

180° 60°

Win

kel

[°]

180120°

-120

0.0

Zeit [s]

2.5 5.0

(d)Produkt der Mikrophonpaare in 0◦-und 90◦-Richtung

Abbildung 40.: ITD-Korrelation in 37 Bändern bei 48000 Hz nach einem Gamamtonfilter um 700 Hz, ISM-Simulation mit weißem Rauschen, das in 1 m Entfernung um ein zirkuläres Mikrophonarraymit 10 cm Durchmesser läuft. Die tatsächliche Position ist oben angegeben.

0 20 40 60 800

5

10

15

Neigung [◦]

RM

S-Fe

hle

r[◦

]

Lokalisierungsgenauigkeit T60 = 0.1s

Kugel φ

Kugel θ

Kreis α

0 20 40 60 800

5

10

15

20

25

30

35

40

Neigung [◦]

RM

S-Fe

hle

r[◦

]

Lokalisierungsgenauigkeit T60 = 0.5s

Kugel φ

Kugel θ

Kreis α

Abbildung 41.: Der RMS-Fehler der Rückprojektion in Kreis und Kugel für geringen und mittleren Hall imVergleich: argmax-Lokalisierung auf Daten einer ISM-Simulation eines Konferenzraumes.

5.2 systemkomponenten 67

Page 76: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

nauigkeit von Neigungs- und Drehungswinkel zu erkennen. Die Kreis-Kreisrückprojektion

näherung zeigt für kleine Neigungen gleich gute Ergebnisse, bei zugroßer Neigung wird mit dieser kein Maximum mehr gefunden.

5.2.3 Kombinationsverfahren

Mit der Laufzeitkorrelation, Rückprojektion und Kombination wird ei-ne spatial likelihood berechnet. Für diese wurden zunächst einige gra-phische Repräsentationen erzeugt. Damit konnte die Auswirkung derModellparameter wie verschiedener Kombinationsverfahren überprüftwerden. Abbildung 42 zeigt zu der ersten Sekunde von vier Simulati-onsläufen im simulierten Konferenzraum mit einem Sprecher die sum-marische Projektion der Energie in den Zeit×Frequenz-, Winkel×Fre-quenz- und den Zeit×Winkel-Raum, also

∑α

e(b)[k, α], ∑k

e(b)[k, α] und ∑b

e(b)[k, α]. (5.2)

Es wurde jeweils das Wort „Geist“ /gaIst/ aus 1.5 m bei T60 = 0.1ohne additives Rauschen verarbeitet. Hier werden die drei t-NormenMinimum, Hamacher mit γ = 0.1, 0.3 und das Produkt kontrastiert. EsHamacher-t-Norm

ist klar ersichtlich, dass die stärker multiplikativ wirkenden Fuzzy t-Normen den oberen Frequenzbereich schwächen und zunehmend nurein Skelett der Sprachenergie übrig lassen. Durch Inspektion der Gra-phen für verschiedene alternative Verfahren wurde die Familie der Ha-macher-t-Normen als am geeignetsten bestätigt (vgl. Abschnitt 3.1.3).

5.3 lokalisierung je zeitfenster

Eine einzelne Quelle kann über das Maximum der spatial likelihood lo-kalisiert werden. Zur Lokaliserung wurde das folgende Verfahren ver-wendet: Zunächst wurden die Eingangssignale aller Mikrophone in25 Frequenzbänder aufgespalten und danach in Spikes umgewandelt.Die Korrelation und ihre Kombination wurde in K = fs · 28 ms-Fens-tern mit 15 ms Vorschub berechnet. Danach wurden diese Werte in denWinkelraum zurückprojeziert und die Winkelergebnisse der einzelnenPaare mit einem Hamacher-t-Norm Operator zusammengefasst. Aufdiese Weise ließ sich die Qualität der Lokalisierung in Abhängigkeitvon gewählten Parametern ohne Einfluss der Nachverarbeitung direktfür die einzelnen Zeitfenster beurteilen.Zur Ermittlung der grundlegenden Parameter wurde eine erschöpfen-de Suche über ausgewählte Parameter für eine Schar von Sprechernin dem simulierten Raum mit verschiedenen Eigenschaften berechnet.Als Signale wurden jeweils 5 Sekunden Sprache bei 48 kHz Sampling-rate verarbeitet. Die einzelnen Simulationen unterscheiden sich dabeidurch die Parameter:

nachhallzeit : Es wurden T60-Zeiten von 0, 0.1, . . . , 1.4 Sekundenverwendet, was den Bereich von mildem bis starkem Nachhallabdeckt.

signal-rausch-verhältnis : Durch Addition von unkorreliertemweißen Rauschen auf alle Mikrophonsignale wurde eine simulier-te SNR von ∞, 24, 12 und 6 dB erzeugt.

68 evaluierung

Page 77: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

1.35

0.79

Fre

quen

z [k

Hz]

0.20

0.43

2.21

5.60

3.54

750

Zeit [ms]

500 10000 250

2.21

0.43

0.79

0.20

3.54

1.35

5.60

Fre

quen

z [k

Hz]

Winkel [°]

180-180

180

135

90

-180

-90

Win

kel

[°]

-45

0

-135

45

2500 750

Zeit [ms]

1000500

(a) Minimum

0.20

2.21

1.35

5.60

0.79

Fre

quen

z [k

Hz]

0.43

3.54

0 250 1000500

Zeit [ms]

7500.20

0.43

Fre

quen

z [k

Hz]

0.79

5.60

1.35

2.21

3.54

Winkel [°]

180-180

-90

-45

-180

0

45

180

Win

kel

[°]

-135

135

90

750250 5000 1000

Zeit [ms]

(b) Hamacher, γ = 0.1

3.54

5.60

Fre

quen

z [k

Hz]

0.20

0.43

0.79

2.21

1.35

250 750500 1000

Zeit [ms]

00.20

0.43

0.79

1.35

2.21

3.54

5.60

Fre

quen

z [k

Hz]

Winkel [°]

-180 180

180

135

Win

kel

[°]

-135

-45

-180

90

45

0

-90

10002500 500

Zeit [ms]

750

(c) Hamacher, γ = 0.3

0.43

3.54

Fre

quen

z [k

Hz]

0.79

5.60

1.35

2.21

0.2010002500

Zeit [ms]

500 750

1.35

3.54

0.20

0.79

Fre

quen

z [k

Hz]

2.21

5.60

0.43

-180 180

Winkel [°]

135

45

90

0

-180

180

Win

kel

[°]

-135

-45

-90

0 250 500 1000750

Zeit [ms]

(d) Produkt

Abbildung 42.: Energieverteilung für verschiedene t-Normen als Kombinationsoperator; Korrelation vonPeak-over-Average Spikes über die Hälfte aller Mikrophonpaarungen von acht Mikropho-nen in einem radialen Array mit 10 cm Durchmesser. Simulation einer Äußerung des Wortes„Geist“ /gaIst/ von -10◦ in 1 m Entfernung bei T60 = 0.1.

5.3 lokalisierung je zeitfenster 69

Page 78: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 43.: Szenario im simulierten Konferenzraum

sprecherposition : -10◦ in 1 m, -60◦ in 1.25 m, -110◦ in 1.5 m und100◦ in 2 m Entfernung wie in Abbildung 43 dargestellt. Zu jederPosition wurde eine Neigung von 0°, 10° und 20° simuliert.

Die Lokalisierung erfolgte über die mit einer Hamacher-t-Norm kom-binierte Kreisrückprojektion der Korrelation von Signalen in 25 Fre-quenzbändern mit fb = 0.2, . . . 9.0 kHz. Dabei wurden die folgendenVerarbeitungsschritte variiert:

spike-generierung : Es wurden vier Varianten benutzt:

• Halbweggleichrichtung

• Nulldurchgang-getriggerte Rechteckimpulse

• PoAP-Spikes ohne Einsatz-Betonung (D = fs · 15 ms)

• PoAP-Spikes mit Einsatz-Betonung (D = fs · 3 ms)

mikrophonpaare : Vier Auswahlen fanden hier Verwendung:

• die 4 orthogonalen Mikrophonpaare

• 8 Paare, welche je zwei Paarungen pro Subband aus mög-lichst vielen unterschiedlichen Mikrophonen kombinieren

• 16 Paare, welche aus je vier Paaren bestehen, die ein bipar-tites Matching der Mikrophone für alle vier möglichen Paa-rungsabstände bilden

• alle 28 Paare

hamacher-t-norm : Für die Zusammenfassung der Energien derMikrophonpaare wurden die Hamacher-t-Norm mit γ = 0.0, 0.1,0.3, 0.5, 0.9 und 1.0 verwendet, wobei die Hamacher-t-Norm fürγ = 1.0 mit dem normalen Produkt übereinstimmt.

Abbildung 44 zeigt wesentliche Ergebnisse. Die Lokalisierungsquali-tät fällt erwartungsgemäß mit der T60-Zeit und steigt mit dem Signal-Rausch-Verhältnis. Die Lokalisierungsqualität nimmt ebenfalls mit derEntfernung des Sprechers ab. Dies ist auf den stärkeren Hallanteil imSprecherentfernung

Signal zurückzuführen. Sprecherposition C und D, welche als entfern-te Kugelquelle in Wandnähe simuliert wurden, zeigten eine deutlicheVerschlechterung mit zunehmendem Hall.

70 evaluierung

Page 79: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Halbweggleichrichtung

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Nulldurchgange

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

PoAP

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

PoAP onset

(a) Spike Generierung

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Orthogonal (4)

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Viertel (8)

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Halfte (16)

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Alle (28)

(b) Mikrophonpaare

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

SF

ehle

r[◦

]

γ = 0.0

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

γ = 0.1

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

γ = 0.3

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

γ = 1.0

(c) Hamacher Fuzzy t-Norm

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Position A (1 m)

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Position B (1.25m)

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]

Position C (1.5 m)

0.20.50.81.11.46

1224∞

0

30

60

90

T60 [s] SN

R [dB]

RM

S-F

ehle

r[◦

]Position D (2.0 m)

(d) Entfernung

Abbildung 44.: Evaluierung der Parameter der Lokalisation je Zeitfenster. Es wird jeweils der RMS-Fehlerder Position der maximalen Energie gegen T60-Zeiten und SNR aufgetragen. Sofern nichtvariiert, sind die Parameter: Peak-over-Average-Spikes, Hamacher-t-Norm mit γ = 0.3, alleMikrophonpaare.

Die vier orthogonalen Mikrophonpaare erreichten keine nutzbare Lo-kalisierung. Der Fehler bei Verwendung von nur acht Mikrophonpaa-rungen unterscheidet sich wenig von der Auswahl von 16, ist aber et-was empfindlicher gegen Rauschen. Die Kombination von acht Paaren 28 Paare

pro Subband bei der Nutzung aller Mikrophonpaare ist noch einmaldeutlich besser.

5.3.1 Impulserzeugung

Die Halbweggleichrichtung versagt bereits ab T60-Zeiten von 0.3 s odereinem Signal-Rauschverhältnis von unter 24 dB. Die Korrelationsfigu-

5.3 lokalisierung je zeitfenster 71

Page 80: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0.2 0.5 0.8 1.1 1.40

10

20

30

40

T60 [s]

RM

S-Fe

hle

r[◦

]

0.2 0.5 0.8 1.1 1.4

0

5

10

T60 [s]

Det

ekti

onen

/s

PoAP

PoAP onset

Nulldurchgang

Abbildung 45.: Vergleich der Spikgenerierungsvorschriften anhand der argmax-Lokalisierung von 5 s Spra-che bei einem SNR von 24 dB. Es wurden alle Mikrophonpaare und die Hamacher-t-Normmit γ = 0.3 verwendet. Links ist der RMS-Fehler, rechts die Anzahl der Detektionen proSekunde aufgetragen.

0.2 0.5 0.8 1.1 1.40

10

20

30

40

T60 [s]

RM

S-Fe

hle

r[◦

]

0.2 0.5 0.8 1.1 1.4

5

10

T60 [s]

Det

ekti

onen

/s γ = 0.0

γ = 0.1

γ = 0.3

γ = 0.5

γ = 1.0

Abbildung 46.: Vergleich der Hamacher-t-Normen anhand der argmax-Lokalisierung von 5 s Sprache beieinem SNR von 24 dB. Es wurden alle Mikrophonpaare und die PoAP-Spike-Generierungvor-schrift verwendet. Links ist der RMS-Fehler, rechts die Anzahl der Detektionen pro Sekundeaufgetragen.

ren sind hier schlicht zu verschmiert. Die Peak-over-Average- undNulldurchgangs-Spikes zeigen vergleichbar gute Lokalisierung für ge-ringen bis mittleren Hall, bei starkem Hall sind die mit Peak-over-PoAP Spikes

Average-Spikes erzielten Ergebnisse besser. Die Einsatz-Betonung (on-set dominance) bewirkt noch einmal eine wesentliche Reduktion derStörungen und führt zu der mit Abstand störresistentesten Schätzung,die sich selbst von 6 dB SNR weitgehend unbeeinflusst zeigt.In Abbildung 45 sind die Lokalisierungsgenauigkeit und Anzahl derDetektionen pro Sekunde für die einzelnen Spikegenerierungsvor-schriften gegen die Nachhallzeit für eine typischeren SNR Wert von24 dB aufgetragen. Für geringen Hall sind alle Verfahren gleich gut.Die Nulldurchgangsmethodik ist für mittleren Hall bereits deutlichPoAP

onset dominance schlechter und bei starkem Hall nicht mehr verwendbar. Dazu erzeu-gen sie auch weniger Detektionen. Am robustesten sind die PoAP-Im-pulse mit onset dominance, wobei diese nur etwa halb so viele Detektio-nen erzeugen wie die PoAP-Impulse ohne Einsatz-Betonung.

5.3.2 Hamacher-t-Normen

In Abbildung 46 sind der RMS-Fehler in Grad und die Anzahl derDetektionen pro Sekunde gegen die simulierte Nachhallzeit aufgetra-gen. Die Familie der Hamacher-t-Normen zeigt für alle Wahlen von γ

ab 0.3 einem vergleichbar geringen Fehler. Dagegen fällt die Zahl derHamacher, γ ≈ 0.3

Detektionen mit steigendem Wert weiter. Somit kann der Wert auf 0.3fixiert werden, um bei geringem Fehler möglichst viele Detektionen zuerhalten.

72 evaluierung

Page 81: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0 3 6 90

15

30

45

60

75

Modulationsschwelle [dB]

RM

S-Fe

hle

r[◦

] T60 = 0.2

T60 = 0.5

T60 = 0.8

T60 = 1.1

T60 = 1.4

5 10 150

15

30

45

1 3

Verschiebung [ms]

RM

S-Fe

hle

r[◦

]

Abbildung 47.: Vergleich der Modulationsdetektionsparameter anhand der argmax-Lokalisierung von 5 sSprache. Es wurden alle Mikrophonpaare und die PoAP-Spike-Generierungvorschrift verwen-det. Links ist der RMS-Fehler gegen die Wahl der Modulationschschwelle bei D = fs · 3 msund rechts gegen die Verschiebung D bei einer Modulationsschwelle von 9 dB aufgetragen.

5.3.3 Modulationsdetektion

In der eben beschriebenen Untersuchung zeigte sich eine klare Ver-besserung durch die Einsatz-Betonung. Die beiden wesentlichen Para-meter der Modulationsdetektion wurden in einer weiteren Reihe vonSimulationen noch einmal gezielt variiert. Dabei wurden für die Modu-lationsschwelle Werte von thmod = 0, 1, . . . 9 und für die Verschiebungzur Einsatz-Betonung Werte von D = fs · 1, 2, . . . , 15 ms gewählt. Alleanderen Parameter wurden auf die in der vorhergehenden Untersu-chung ermittelten Werte fixiert. Die Sprecherpositionen und Nachhall-zeiten wurden erneut wie oben beschrieben variiert.

In Abbildung 47 ist der RMS-Fehler für verschiedene T60-Zeiten gegendie Werte der beiden Parameter aufgetragen. Es ist klar zu erkennen,dass eine hohe Modulationsschwelle den RMS-Fehler reduziert. Die thmod = 9 dB

Reduktion auf klar lokalisierte glimpses führt für alle Simulationen mitNachhallzeiten von T60 ≥ 0.3 s zu einer Verbesserung des Ergebnisses.Die über Versatz von Mittelwert und Signal erzeugte onset dominance D = fs · 3 ms

bewirkt für mittlere bis starke Nachhallzeiten bis zu einer Sekundeeine Verbesserung der Lokalisierungsgenauigkeit. Der vorher per In-spektion gewählte Wert von fs · 3 ms ist für die meisten Simulationenoptimal.

5.4 integration über die zeit

Für die Lokalisierung von mehreren gleichzeitigen Sprechern ist dieAuswahl der maximalen Position nicht mehr hinreichend, hier werdenmitunter komplexe Strategien angewendet [CMWB07, MM08]. Das indieser Arbeit entwickelte Lokalisierungsverfahren ist durch die in Ab-schnitt 4.6.3 beschreibene PoAPα-Nachverarbeitung zur Lokalisierung Modulationsbasierte

Winkellokalisierungmehrerer gleichzeitiger Sprecher in der Lage. Die Parameter der Nach-verarbeitung wurden anhand der Inspektion von Ergebnissen für ver-schiedene reale Aufnahmen und gezielte Untersuchungen mit Simula-tionen bestimmt. Diese sind in Abschnitt 5.4.1 beschrieben. Um denminimal möglichen Sprecherabstand zu bestimmen, der noch zu klargetrennten Lokalisierungen führt, wurde eine eigene in Abschnitt 5.4.2vorgestellte Untersuchung mit einer Simulationsreihe vorgenommen.

5.4 integration über die zeit 73

Page 82: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

−45 −30 −15 0 15 30 450

20

40

60

80

100

Winkelabweichung [◦]

En

ergi

e[%

] T60 = 0.2T60 = 0.5T60 = 0.8T60 = 1.1

−45 −30 −15 0 15 30 45−20

0

20

40

60

80

Winkelabweichung [◦]

PoA

Abbildung 48.: Ergebnis der zeitlichen Mittelung (links) und PoA-Operation (rechts) auf den Energiewertenaus der Simulation eines Sprechers im simulierten Konferenzraum.

100 200 500 1000 20000

15

30

45

Fensterlange [ms]

RM

S-Fe

hle

r[◦

]

T60 = 0.2T60 = 0.5T60 = 0.8T60 = 1.1

234560

3

6

9

Divisor

RM

S-Fe

hle

r[◦

]

Abbildung 49.: Einfluss der Fensterlänge der zeitlichen Mittelung und des Schwellwerts für die spektraleVerteilung.

5.4.1 Sprach- und Hallmodell

Um die wesentlichen modulierten Sprachenergien (vgl. Abschnitt 2.1)zu erfassen wurde die Bandkonfiguration auf nb = 16 Frequenzbän-der mit Mittenfrequenzen fb zwischen 0.2 kHz und 3.6 kHz festgesetzt.0.2 - 3.6 kHz

Ebenso wie für die adaptive Fensterlänge lässt sich die Adäquatheitdieser Wahl durch Inspektion der spatial likelihood (Abbildung 35 und42) nachvollziehen.

Der Effekt der zeitlichen Mittelung und der PoA-Operation wird inAbbildung 48 verdeutlicht. Hier sind links die summierten Energi-en aller Frames, d.h. über 5 s, für das simulierte Koferenzraumszena-rio in ein Histogramm bezüglich der Winkelabweichung von der tat-sächlichen Quellposition eingetragen. Die Position des Maximums ent-spricht dem Quellwinkel, mit steigendem Hall wird der Peak immerbreiter und unregelmäßiger. Rechts ist der Peak-over-Average-Wert eWinkel PoA

aufgetragen. Die positiven e Werte bilden einen schmaleren Peak.

Durch Inspektion der Ergebnisse für verschieden simulierte und realeSzenarien wurden die Werte für die beiden verglichenen Mittelwertebestimmt. Werte im Bereich von 2-5° und 30-90° erzeugen hier quasi5° und

45°-Mittelwert identische Ergebnisse. Als praktische Festlegung wurden die im vor-hergehenden Kapitel angegebenen Werte von 5° und 45° gewählt.

Somit kann die PoAPα-Auswertung über ein längeres Zeitfenster Ne-benmaxima ausschließen, wie die folgende Auswertung über die Da-ten aus dem simulierten Konferenzraum belegt: Es wurde über Fensterverschiedene Längen W mit einem Viertel Vorschub über alle Bändersummiert, und mit der eben gewählten PoAPα-Lokaliserung die Spre-cherpositon bestimmt. Abbildung 49 zeigt links den Einfluss der Fens-terlänge, gemittelt über alle vier Sprecherpositionen, in Abhängigkeit

74 evaluierung

Page 83: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0 2 4 6 8 10 12 14 16

−60

−40

−20

0

Zeit [s]W

inkel

[◦] Sprecherposition Detektion

(a) T60 = 0.1

0 2 4 6 8 10 12 14 16

−60

−40

−20

0

Zeit [s]

Win

kel

[◦] Sprecherposition Detektion

(b) T60 = 0.5

0 2 4 6 8 10 12 14 16

−60

−40

−20

0

Zeit [s]

Win

kel

[◦] Sprecherposition Detektion

(c) T60 = 0.9

Abbildung 50.: Detektion zweier Sprecher in 30° Abstand in 1.25 m Entfernung im simuliert Konferenzraum.Der Grauwert der Marker gibt den Peakwert wieder, ein schwarzer Marker entspricht demMaximum, ein weißer dem Minimum in der Aufnahme.

von der Nachhallzeit. Um 500 ms wird der Fehler in allen Fällen redu-ziert, erst bei Zeiten über 1.6 s bzw. 2.5 s für T60 = 1.1 s tritt eine starkeReduktion ein. Ein Wert von 3 s oder mehr kann also in quasi stati- W = fs · 1 s

schen Szenarios eine Verbesserung erzielen. Hier wird für allgemeineAnwendungen ein Wert von W = fs · 1 s gewählt, der bei normalenBewegungsgeschwindigkeiten angemessen ist.

Um die spektrale Verteilung von Sprache zu berücksichtigen, kann einSchwellwert für die Anzahl der Bänder festgelegt werden, in denenEnergie zu dem Peak beiträgt. Um diesen zu bestimmen, wurde eineweitere Auswertung vorgenommen. Bei der Summation der Frequenz-bänder wurden nur solche Peaks berücksichtigt, die in mehr als nb/vBändern auftraten. Abbildung 49 zeigt rechts den Einfluss des gewähl-ten Divisors v für eine Fensterlänge von W = fs · 1 s. Für alle T60-Zeitenüber 0.2 s sinkt der Fehler für einen Divisor von 4 oder weniger deut-lich, in allen Fällen wird 3° unterschritten. Da ein kleinerer Divisor die Sprachenergie in

nb/4 = 4 oder mehrBändern

Zahl der verbleibenden Detektionen reduziert, wurde praktisch einWert von v = 4 festgesetzt, so dass nur Peaks bei der Lokalisierungberücksichtigt werden, bei welchen in 16/4, also vier oder mehr Bän-dern Sprachenergie auftritt. Damit sind alle Parameter des in Kapitel4 beschriebenen Verfahrens festgelegt.

5.4.2 Lokalisierung gleichzeitiger Sprecher

Abbildung 50 zeigt Detektionen mit dem so definierten Verfahren fürzwei Sprecher an fester Position im Abstand von 30° für Simulationenmit verschiedenen Nachhallzeiten. Die Varianz der Detektionen nimmtmit steigendem Hall leicht zu, dennoch sind die beiden Sprecher alsgetrennte Objekte auszumachen. Mit steigendem Hall nimmt auch dieZahl der Lücken zu. Hier ist zu erkennen, dass nach dem glimpsingmodel-Ansatz nur die klar lokalisierten Ereignisse verbleiben, was zu glimpsing model

einer Ausdünnung der Repräsentation bei starken Störungen führt.

5.4 integration über die zeit 75

Page 84: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0.10.3

0.50.7

0.9 30

60

90

0

10

20

30

40

50

T60 [s] Absta

nd [◦ ]

Feh

ldet

ekti

on

[%]

0.10.3

0.50.7

0.9 30

60

90

1

2

3

4

5

6

7

T60 [s] Absta

nd [◦ ]

RM

S-F

ehle

r[◦

]

Abbildung 51.: Fehlerrate und RMS-Fehler für zwei simulierte gleichzeitige Sprecher

Um die Grenzen des Verfahrens zur Trennung gleichzeitiger Sprecherzu bestimmen wurde eine eigene Untersuchung vollzogen. In einerReihe von Simulationsszenarien sprachen zwei Sprecher mit Abstän-den von |α1 − α2| = 10, 20, . . . , 90° gleichzeitig eine Sequenz von 18 sLänge in 1.25 m Entfernung vom Mikrophonarray in einem 5x6x2.5 m3

Raum. Es wurden jeweils Nachhallzeiten von T60 = 0.1, 0.2, . . . , 0.9simuliert. Um zu entscheiden, wann ein Sprecher korrekt detektiertsimulierte

gleichzeitige Sprecher wird, wird eine Schwelle von

∆α = min {6, |α1 − α2|/3} (5.3)

festgesetzt, um die Fehldetektionen als

FD := {(l, an) | min{|an − α1|, |an − α2|} > ∆α} (5.4)

bestimmen zu können. So erhält man die Fehlerrate

er =|FD|

|{(l, an)}| (5.5)

relativ zur Zahl der Gesamtdetektionen. Die Ergebnisse der Aus-wertung sind in Abbildung 51 dargestellt. Die Fehlerrate liegt für|α1 − α2| ≥ 30° fast immer unter 5 %, in einigen Fällen mit T60 ≥ 0.7 ssteigt sie auf bis zu 10 %. Der RMS-Fehler steigt mit der Nachhall-ab 30°

zeit von ca. 1° auf etwa 5°, mit einigen Ausnahmen bei T60 = 0.9 s.Der steile Anstieg sowohl des RMS-Fehlers als auch der Fehlerrate fürkleine Winkel belegt, dass zwei gleichzeitige Schallereignisse in einemAbstand von weniger als 30° nicht sicher getrennt werden können. Dar-über zeigt das Verfahren eine robuste Lokalisierung mit einem mittle-ren Fehler von 3°.

5.5 anwendung in realen konferenzraumszenarien

Schließlich wurde das in dieser Arbeit entwickelte Verfahren mit denermittelten Parametern an Aufnahmen aus realen Umgebungen ge-testet. Es wurde ein öffentlich verfügbarer Korpus benutzt, um denAnsatz mit publizierten Ergebnissen anderer Verfahren zu vergleichen.Hier war eine kleine Anpassung für die niedrige Abtastrate von 16 kHznötig (Abschnitt 5.5.1). Mit eigenen Aufnahmen im intelligenten Kon-ferenzraum der FINCA wurden Szenarien aufsteigender Komplexität

76 evaluierung

Page 85: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

getestet: Zunächst die Lokalisierung eines einzelnen Sprechers an fes-ten Positionen (Abschnitt 5.5.2), dann eine Diskussion am Konferenz-tisch (Abschnitt 5.5.3) und schließlich eine Aufnahme mit zwei konti-nuierlich durcheinander sprechenden Personen (Abschnitt 5.5.4).Um eine anwendungsorientierte Schranke für die Genauigkeit zu be-rechnen, wurde für jede Position abhängig vom Abstand di des Spre-chers eine maximale Winkelabweichung

∆α = arctan(di, ∆d) (5.6)

abhängig von der tolerierten Abweichung ∆d, welche z.B. der Kopfbrei-te entspricht, berechnet. Somit erhält mit dem Winkel des Sprechers

αi = arccos(

(m0 − qi)(m4 −m0)

‖m0 − qi‖‖m4 −m0‖

)

(5.7)

als Treffer (true positives)

TPi := {(l, an) | |an − αi| ≤ ∆α}. (5.8)

und als Fehldetektionen (false positives)

FPi := {(l, an) | i =j

argmin {|an − αj|} ∧ |an − αi| > ∆α} (5.9)

diejenigen, die am nächsten an dem Quellwinkel αi sind, aber nichtin den Bereich des Sprechers fallen. Somit lässt sich die „Genauigkeit“(precision) wie üblich bestimmen:

pri :=|TPi|

|FPi ∪ TPi|und pr :=

∑i |TPi|∑i |FPi ∪ TPi|

. (5.10)

Liegen Daten über die Sprachaktivität vor, so kann man anhand derAnzahl der aktiven Fenster Pi die „Trefferrate“ (recall) bestimmen:

rei :=|TPi||Pi|

und re :=∑i |TPi|∑i |Pi|

. (5.11)

Für einige Aufnahmen liegt keine genaue Information der Sprecherak-tivität vor. Um hier dennoch eine Aussage über die Anzahl der Detek-tionen machen zu können, wird die „Dichte“ als Anzahl der Detektio-nen pro Zeiteinheit definiert.

5.5.1 AV16.3-Sequenz 1: Einzelner Sprecher

Der AV16.3-Korpus liefert eine ganze Reihe von Aufnahmen mit ver-schiedenen Szenarios [LOGP05]. Da die Daten nur in 16 kHz Abtastra-te vorliegen, ist die Phaseninformation schlecht repräsentiert. Darüberhinaus führt auch der größere Radius von ra = 10 cm zu mehr Aliasingund geringerer Kohärenz für hohe Frequenzen. Oberhalb von 1.7 kHzist keine auswertbare Information vorhanden. Die Daten wurden auf ≤ 1.7 kHz

48 kHz umgerechnet und die Lokalisierung dann mit zwölf Frequenz-bändern mit den Mittenfrequenzen fb = 0.2, . . . , 1.6 kHz vorgenom-men. Mit dieser Anpassung konnte das Verfahren auf die Aufnahmenaus dem AV16.3-Korpus erfolgreich angewendet werden.In Sequenz 1 wurden von einem Sprecher 16 Positionen fest eingenom-men und die Phrase „one two three four five six seven eight nine ten this

5.5 anwendung in realen konferenzraumszenarien 77

Page 86: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

−90

−45

0

45

90

Win

kel

θ[◦

]Sprecherposition

Detektion

20 40 60 80 100 120 140 160 180 200 220

0

Zeit [s]

Abbildung 52.: Detektionen für AV16.3-Sequenz 1, ein einzelner Sprecher nimmt 16 Positionen im Raum einund äußert jeweils einen kurzen Text.

is position X“ gesprochen, wobei X die Nummer der Sprecherpositionist. Die Aufnahme des mundnahen Lapel-Mikrophons wurde ebenfallsmit der Gammaton-Filterbank gefiltert und in diesem entsprechendenFenstern die RMS-Energie gebildet. Diese ist in Abbildung 52 unter-halb der Detektionsgraphen aufgetragen. Der Mittelwert dieser Grö-ße wurde in den Mittelungsfenstern der Auswertung bestimmt. Miteinem einfachen Energieschwellwert von −45 dB wurden diejenigenZeitfenster bestimmt, in denen im Quellsignal gesprochen wurde. Dar-auf bezogen wird die Anzahl der korrekt lokalisierten Detektionen be-zogen auf das Spechersignal ermittelt. Dabei wurden nur Detektionenmit einer Abweichung von unter ∆d = 0.2 m als Treffer gezählt, alsosolche, welche den Kopf des Sprechers auf etwa eine Kopfbreite genaulokalisierten.

Abbildung 52 zeigt die berechneten Detektionen für MA1, das ersteMikrophonarray. Nahezu alle Positionen werden gut lokalisiert. Ins-gesamt ergab sich ein RMS Fehler von 3.2° mit 97 % Genauigkeit für3° RMS-Fehler

97 % Genauigkeit beide Mikrophonarrays. Die Trefferrate betrug 93 % für MA1 und 86 %für MA2.

Für SRP-PHAT-Lokalisation in eben diesem Szenario wird eine Ge-nauigkeit von 5◦ angegeben [Lat06, S. 37 oben]. Dieses Ergebnis wirdallerdings nur erzielt, wenn lediglich als Sprache markierte 32 ms-Zeit-fenster ausgewertet werden. Dazu wurde in der Implementierung vonLathoud et al. eine Sprache-Nichtsprache Unterscheidung eingeführt,welche unter anderem den Notebooklüfter in der Aufnahme von Sze-nario 1 ausblendet [LO07].

5.5.2 FINCA-Sequenz 1: Einzelner Sprecher

Ähnlich wie Sequenz 1 des AV16.3 wurde auch in der FINCA eine Auf-nahme zum Test der Lokalisierung eines einzelnen Sprechers erstellt.In dieser nahm ein Sprecher die sieben in Abbildung 53 gezeigten Posi-tionen ein und äußerte jeweils einige Sätze. Dabei wurden mit dem in5° RMS-Fehler

94 % Genauigkeit Kapitel 4 beschreibenen Verfahren die in Abbildung 54 gezeigten De-tektionen erzielt. So ergab sich sich hier ein RMS-Fehler von 4.43°. Miteiner Toleranz von ∆d = 0.2 m ergab sich eine Genauigkeit von 93.9 %.In den Zeitintervallen, in denen der Sprecher stillstand, erreichten dieDetektionen eine Dichte von 83.4 %.

78 evaluierung

Page 87: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 53.: FINCA-Sequenz 1: Ein einzelner Sprecher spricht an sieben Positionen jeweils mehrere Sätze.

60 80 100 120 140 160 180 200 220 240 260 280

−180

−135

−90

−45

0

45

90

135

180

Zeit [s]

Win

kel

[◦]

Sprecherposition

Detektion

Abbildung 54.: Detektionen zu FINCA-Sequenz 1

Position Abstand Winkel Fehler Genauigkeit Dichte

1 2.16 m 146.31° 3.61° 86.1 % 69.9 %

2 1.70 m 135.00° 5.70° 76.0 % 88.1 %

3 1.34 m 116.57° 4.34° 100.0 % 85.8 %

4 1.20 m 90.00° 2.69° 99.3 % 96.1 %

5 1.27 m 45.00° 4.87° 100.0 % 93.1 %

6 0.90 m 0.00° 7.86° 87.8 % 50.5 %

7 1.08 m −33.69° 2.79° 100.0 % 92.3 %

Tabelle 2.: Detektionen zu FINCA-Sequenz 1 nach Sprecherposition

5.5 anwendung in realen konferenzraumszenarien 79

Page 88: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

5.5.3 FINCA-Sequenz 2: Diskussion am Tisch

Zum Test der Ortung von Sprechern in natürlichen Gesprächen wurdeeine Diskussion zwischen zwei am Tisch sitzenden Sprechern aufge-zeichnet. Dabei saßen die beiden Sprecher ca. 90° versetzt in ca. 1 mEntfernung vom Mikrophonarray am Tisch. Um eine möglichst na-türliche Aufnahme zu erhalten, wurden keine Einschränkungen zumVerhalten vorgegeben. Beide Sprecher bewegten sich während des Ge-natürliche

Diskussion sprächs natürlich auf den Stühlen, zeigten einander Ausdrucke usw.Die ausgewertete Aufnahme hat eine Gesamtlänge von einer halbenStunde.In Anbetracht dessen wurde im Hinblick auf mögliche Anwendungendie Detektion eines Sprechers auf eine Stuhlbreite als korrekt einge-stuft und eine erhöhte Abweichung von ∆α = 26.56° zugelassen, was∆d = 50 cm in einem Meter Entfernung entspricht. Die Sitzpositionender beiden Sprecher wurde entsprechend der Stellung der Stühle zumMikrophonarray als 0° und 90° angenommen und nicht weiter korri-giert. Bei der Auswertung wurde jeweils der einer Detektion nähereSprecher derselben zugeordnet.Abbildung 55

zeigt die Detektionen für einen zehn Minuten langen Ausschnitt. Esfällt auf, dass die Sprecher sich zwar abwechseln, aber dennoch relativoft gleichzeitig sprechen. Über die gesamte Sequenz und beide Spre-cher ergab sich ein RMS-Fehler von 5.87° und eine Genauigkeit von99.4 %, für die beiden Sprecher einzeln 5.25° bzw. 7.15° RMS-Fehler6° RMS Fehler

99 % Genauigkeit und 99.6 % bzw. 98.9 % Genauigkeit. Ohne dass die Sprecheraktivitätoder die genaue Position vorher bekannt war, wurden die Sprachak-tivitäten beider Sprecher mit hoher Präzision erkannt. Die wenigenfehlerhaften Detektionen sind höchstwahrscheinlich auf Sprecherbewe-gungen oder verbleibende Störungen wie Papierrascheln, Stuhlrückenoder Aussetzer der Aufnahmesoftware zurückzuführen.

5.5.4 FINCA-Sequenz 3: Gleichzeitige Sprecher im Raum

Um die Lokalisierung gleichzeitiger Sprecher zu testen, wurde das fol-gende Szenario aufgenommen: Ein Sprecher nahm die bereits verwen-deten sieben Positionen vor der Präsentationsleinwand ein und sprachan jeder einige Sätze. Ein Sprecher saß am Tisch der Präsentationslein-concurrent speakers

wand gegenüber bei −90° und sprach dauerhaft.Hier ergab sich ein RMS-Fehler von 4.88°, 6.02° für den Laufenden,3.91° für den sitzenden Sprecher. Mit einer Toleranz von ∆d = 0.2 mergibt sich eine Genauigkeit von 94.8 %, je 90.3 % und 99.0 % für die5° RMS-Fehler

95 % Genauigkeit beiden Sprecher bei einer Dichte von 82.4 % und 90.2 %. Wie in Ab-bildung 57 klar zu sehen, wird der bewegte Sprecher an den erstenzwei Positionen schlechter lokalisiert. In Tabelle 3 sind die Ergebnissefür die einzelnen Positionen von Sprecher 1 aufgelistet. An den erstenPositionen ist der Sprecher über 2 · rH = 1.3 m vom Mikrophonarrayentfernt, danach wird die Lokalisierung deutlich dichter. Dies legt dieVermutung nahe, dass eine Positionierung des Mikrophonarrays in derMitte des Tisches oder die Verwendung eines zweiten Mikrophonar-rays am anderen Tischende eine durchgängig präzise Lokalisierungermöglichen würde.

80 evaluierung

Page 89: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

0 50 100 150 200 250 300 350 400 450 500 550 600

−180

−135

−90

−45

0

45

90

135

180

Zeit [s]

Win

kel

[◦]

Sprecher 1

Sprecher 2

Detektion

Abbildung 55.: Detektionen zu FINCA-Sequenz 2: Diskussion zweier Gesprächspartner am Tisch.

Abbildung 56.: FINCA-Sequenz 3: Zwei gleichzeitige Sprecher, einer läuft während der Präsentation durchden Raum, ein zweiter am Tisch redet dazwischen.

40 60 80 100 120 140 160 180

−180

−135

−90

−45

0

45

90

135

180

Zeit [s]

Win

kel

[◦]

Sprecher 1 (laufend)

Sprecher 2 (sitzend)

Detektion

Abbildung 57.: Detektionen zu FINCA-Sequenz 3

Sprecher 1 (laufend) Sprecher 2 (sitzend)

Position Abstand Fehler Genau. Dichte Fehler Genau. Dichte

1 2.16 m 3.77° 89.1 % 52.9 % 3.66° 100.0 % 98.9 %

2 1.70 m 5.77° 66.7 % 66.2 % 4.14° 97.2 % 92.2 %

3 1.34 m 7.50° 70.1 % 91.8 % 3.88° 98.3 % 82.2 %

4 1.20 m 6.92° 100.0 % 95.7 % 3.93° 98.4 % 88.4 %

5 1.35 m 5.80° 98.5 % 95.7 % 3.82° 100.0 % 94.2 %

6 0.90 m 3.62° 100.0 % 88.7 % 3.80° 98.8 % 82.5 %

7 1.08 m 5.78° 97.5 % 89.9 % 4.13° 100.0 % 93.3 %

Tabelle 3.: Detektionen zu FINCA-Sequenz 3 nach Sprecherposition

5.5 anwendung in realen konferenzraumszenarien 81

Page 90: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 91: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

6F A Z I T

Abschließend wird die Arbeit kurz zusammengefasst und bewertet.Danach wird ein Ausblick auf mögliche Erweiterungen und Einsatzge-biete des Verfahrens gegeben.

6.1 zusammenfassung

Im Rahmen dieser Arbeit wurde ein Verfahren entwickelt, welchesSprecher mit der pragmatischen Kombination von neurobiologischenund kognitionspsychologischen Modellen mit technischen Methodenin realen Umgebungen lokalisiert. Es kann in verschiedenen realen Si- reale Umgebungen

Halltuationen eingesetzt werden, insbesondere auch in Innenräumen mitmittlerem oder starkem Hall. Als prototypisches Anwendungszenariowurde ein intelligenter Konferenzraum gewählt. Hier wird zwischen Konferenzszenario

die Sprecher auf den Tisch ein planares zirkuläres Array aus acht om- Mikrophonarray

nidirektionalen Mikrophonen platziert [BW01], welches an einen han-delsüblichen PC angeschlossen ist.

Die Verarbeitung stützt sich auf neurobiologische und kognitionspsy- Neurobiologie

chologische Erkenntnisse zur Ermittlung hoch-robuster Merkmale. Je-des Mikrophonpaar wird in Analogie zur menschlichen Verarbeitungin der Cochlea und den auditory pathways in einer auf Sprache abge-stimmte Weise verarbeitet. Mittels der in dieser Arbeit entwickeltenPeak-over-Average-Position-Auswertung (PoAP) werden Folgen vonRechteckimpulsen erzeugt, welche dann für alle Mikrophonpaare kor-reliert werden. Dabei wird mit der onset dominance ein Mechanismus onset dominance

des Menschen nachgeahmt, welcher von Neurologen als wichtig fürdas Hören und Lokalisieren in Umgebungen mit starkem Nachhallangesehen wird [DIH+09, Gro03]. In der Kognitionspsychologie wirddie verbesserte Lokalisierung bei Hall durch Auswertung dominan-ter onsets bzw. der „ersten Wellenfront“ als precedence effect bezeich- precedence effect

net [WB06, S. 26ff.]. Anhand der in der Korrelation bestimmten Lauf-zeitunterschiede werden die Quellwinkel geschätzt. Mittels einer Fuz-zy-Kombination werden die Ergebnisse aller Mikrophonpaare zu ro- Fuzzy

busten Schätzungen kombiniert. Die Nachverarbeitung berechnet dieWinkel von Sprechern in Zeitfenstern als modulierte Peaks mit sprach-typischen Eigenschaften. Die konsequente Einschränkung auf wenige Lokalisation von

Sprechernaber eindeutige Peaks entspricht der Auswertung gestörter Signale imSinne eines glimpsing model [Coo06]. Das Verfahren liefert mit opti- glimpsing model

mierten Algorithmen kontinuierliche Sprecherpositionsschätzungen in Echtzeit

Echtzeit.

In ausführlichen Evaluationen mit simulierten Räumen und realenAufnahmen wurde die Implementierung mit allen Parametern auf dieNutzung höchst klar lokalisierter Sprachereignisse optimiert. Versucheim Konferenzraum der FINCA bestätigten die Einsatzfähigkeit der ent- reale Aufnahmen in

der FINCAwickelten Lokalisierung in realen Umgebungen und deren Robustheitgegenüber hall- und rauschinduzierten Störungen.

83

Page 92: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

6.2 bewertung

Ein Ziel dieser Arbeit war ein anwendungsorientierter Brückenschlagzwischen verschiedenen Disziplinen. Durch die pragmatische Kombi-interdisziplinär

nation von Mikrophonarraytechnik und neurobiologischen und kogni-tionspyschologischen Modellen wurde ein Verfahren geschaffen, dashöchst robuste Merkmale zur Lokalisierung von Sprechern berechnet.Die Verwendung der PoAP-Impulsgenerierung erwies sich als unem-PoAP Spikes

findlicher gegen Störungen als die der Korrelation von Nulldurchgän-gen. Durch onset dominance konnte die Robustheit gegen starken Hallonset dominance

noch deutlich gesteigert werden. Die Kombination mit der Hamacher-t-Norm erlaubte eine unempfindliche Quellenschätzung. Mit der De-Fuzzy Kombination

tektion als Peaks über Winkel aus spektral verteilter SprachenergieSprachmodell

konnten zuverlässig Sprecher lokalisiert werden.Der Ansatz hat sich im praktischen Einsatz im Konferenzraum derFINCA mit deutlichem Hall bewährt. Die Lokalisierung von SprechernLokalisierung bei

Hall in realenUmgebugnen

gelingt hier in verschiedenen realen Situationen wie auch auf Konfe-renzraum-Korpora mit zwischen 3° und 6° RMS-Fehler und über 90 %Genauigkeit.In der überwiegenden Mehrheit der Anwendungsszenarien findet dieLokalisierung von Sprechern in Innenräumen und nicht auf dem freienFeld oder in hallfreien Akustikkammern statt. Dennoch ist die über-wiegende Mehrheit der CASA-Systeme diesen Situationen nicht ge-wachsen [WB06]. Daher ist das Ergebnis dieser Arbeit ein Schritt inCASA in realen

Situationen der Entwicklung der CASA-Anwendungen zum erfolgreichen Einsatzin realen Situationen.

6.3 einsatzgebiete und weiterentwicklungen

Das hier vorgestellte System lässt sich durch Einsatz verteilter Mi-krophonarrays leicht zur Lokalisierung von Sprechern in kartesischenRaumkoordinaten erweitern. Hier ist auch die Erweiterung der Nach-verarbeitung zur Sprecherverfolgung interessant. Die Interaktion in ei-nem intelligenten Konferenzraum bietet viele mögliche Einsatzgebiete.Des Weiteren kann die Lokalisation der Sprachstromtrennung dienen,welche in ein Spracherkennungssystem integriert werden kann.

Verteilte Mikrophonarrays

In einem intelligenten Raum kann durch Nutzung verteilter Mikro-phonarrays die stabile Lokalisierung von Sprechern in Raumkoordina-verteilte

Mikrophonarrays ten realisiert werden. Dies kann durch eine Kombination von Winkel-vorselektion in einem groben Raster und nachfolgender genauer Positi-onsbestimmung, etwa via Gradientenabstieg, effizient erfolgen [LO07].Bei einer drahtlosen Netzwerkverbindung mit einem Roboter ist aucheine kombinierte Schätzung von an diesem und im Raum installiertenMikrophonarrays möglich [NNM+06].

Sprecherverfolgung (Tracking)

Durch Intergration eines Modells der zeitlichen Dynamik sich bewe-gender Sprecher über entsprechende Verfahren kann die Verfolgungvon Sprechern realisiert werden. Bekannte Ansätze hierzu sind viter-

84 fazit

Page 93: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

bi tracking [RW08], der eigenwertbasierte PASTd-Algorithmus [OS09]oder partikelbasierte Verfahren [Leh06] und PHD-Filter [MVSB06]. PHD-Filter

Multimodale Interaktion

Die Lokalisierung kann zur Steuerung von Kameras in vielfältigen In-teraktionsszenarien verwendet werden. Durch eine Kopplung mit ei-nem Gesichts- oder Kopf-Schulter-Detektor lässt sich die Genauigkeitsteigern. Eine Lokalisierungslösung kann auch auf einem mobilen Ro-boter eingesetzt werden [RLB+08]. Da die Lokalisierungsgenauigkeit mobiler Roboter

mit fallendem Abstand steigt, kann der Roboter Sprecher mit steigen-der Genauigkeit ansteuern.

Sprachstromtrennung und robuste Spracherkennung

Mit der Lokalisierung können Energien im Zeit×Frequenz×Winkel-Raum Sprechern zugeordnet werden. Darauf basierend lässt sich einTeil des Sprachsignals in Analogie zu einem steered beamformer mit op-timiertem Nachfilter [Dob06] rekonstruieren.Die durch Hall reduzierten Zeit×Frequenz-Masken können als Merk-male für ein Spracherkennungssystem genutzt werden. Das Fehlenvon Teilen der Sprache kann hierbei mit einem missing data-Ansatz missing data

modelliert werden [RSS04, KPTN08].Als Spracherkennungsmerkmale können dann die beteiligten Energi-en in Form von auditory rate maps dienen, hier ist die Übertragung der auditory rate maps

Unsicherheiten aus einer kontinuierlichen Zeit-Frequenz-Maske direktmöglich [HBB06]. Die Übertragung der spektralen Unsicherheiten inden cepstralen Bereich ist wesentlich aufwändiger, da sich eine Fre-quenz auf alle MFCCs auswirkt [SW07].

6.3 einsatzgebiete und weiterentwicklungen 85

Page 94: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways
Page 95: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

AI M P L E M E N T I E R U N G

Im Rahmen der Arbeit wurde eine Vielzahl von Testprogrammen undOberflächen erstellt. Hier wird zunächst kurz die Laufzeitoptimierungdargestellt, die zum Design des Echtzeitsystems führte. Danach wer-den Implementierungen des Systems dargestellt.

a.1 laufzeitoptimierung

Während der Implementierung wurden immer wieder Schritte zurReduktion der Gesamtlaufzeit unternommen. Dazu wurden wieder-holt Laufzeituntersuchungen durchgeführt. Während der Laufzeittestswurde das 90 % Konfidenzintervall i90 nach der Tschebyscheff-Unglei-chung bestimmt. Sank die Schwankungsbreite unter 12 % oder wurdenn = 45 Iterationen erreicht, wurde der Test beendet. Alle hier aufge- OpenMP

-O3 -ffast-mathführten Messungen beziehen sich auf C++-Quellcode, der vom GCC1

mit den Einstellungen -O3 -ffast-math -fopenmp übersetzt wurde.Die Messungen wurden auf einem PC mit einem Core2 Duo E8500 Pro-zessor unter dem Betriebssystem Kubuntu Linux 9.04 „Jaunty“ durch-geführt.

Filterbank

Der erste optimierte Aspekt ist die verwendete Filterbank. Es wurdezunächst die IIR-Filter-Variante [Sla93] implementiert. Da diese einenextrem nichtlinearen Phasengang aufweist, wurden die Filter alterna-tiv per FFT Overlap-Add realisiert. Die C++-Implementierung der FFTist etwa 2.1 mal langsamer als die IIR-Filter. Durch Nutzung der lib-

FFTW [FJ05] erreicht die FFT-Variante eine vergleichbare Laufzeit. Eine libFFTW

Filterbank mit 25 Bändern für ein mit fs = 48 kHz abgetastetes Si-gnal kann mit beiden Verfahren in etwa 4 % der Signallänge, also 4 %der für Echtzeitverarbeitung verfügbaren Rechenzeit, berechnet wer-den. Tabelle 4 gibt die Ergebnisse einer vergleichenden Messung wie-der.

Korrelation

Eine der aufwändigsten Rechenoperationen ist die Korrelation derRechteckimpulse. Hier wurde eine ganze Reihe von Verfahren imple-

1 GNU Compiler Collection, http://gcc.gnu.org/

Implementierung single core OpenMP

% Echtzeit i90 [ms] % Echtzeit i90 [ms]

IIR 6.75 [177, 177] 3.82 [ 94, 107 ]

FFT 15.97 [377, 461] 8.89 [223, 244 ]

FFTW 7.78 [202, 206] 4.03 [ 76, 135 ]

Tabelle 4.: Laufzeitvergleich Gammaton Filterbank

87

Page 96: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Implementierung Datenstruktur % Echtzeit i90[ms]

Jeffress Array 12.41 [324, 327]

FFT Array 4.70 [116, 131]

FFTW Array 2.43 [63, 65]

Match Array 1.84 [47, 50]

Match Indexed 0.10 [3, 3]

Tabelle 5.: Laufzeitvergleich Korrelation

mentiert. Das erste Verfahren war die diskrete Korrelation nach demJeffress-Colburn Modell. Diese benötigte allein über 12 % der Signal-länge auf einem Signalpaar. Die „schnelle Faltung“ per FFT reduzierteschnelle Faltung

die Rechenzeit auf erträglichere 2.5 % und rückte damit die Implemen-tierung erstmals in die Nähe von Echtzeitbetrieb. Das Suchen von Paa-schnelle

Spikekorrelation ren in den spärlich besetzten spike trains drückte die Zeit noch einmalgeringfügig auf 1.8 %, mit der Verwendung einer indizierten Daten-struktur ist die Korrelation spärlich besetzter Signale 20-100 mal soschnell wie die erste Variante.

Gesamtlaufzeit

Betrachtet man die Gesamtlaufzeit verschiedener Implementierungen,so hat dieser letzte Schritt der Verwendung einer indizierten Daten-struktur für schnelle Korrelation und Kombination den Echtzeitbetriebauf einem Rechner mit einen Core2 Quad Q9550 Prozessor der FirmaIntel ermöglicht. Tabelle 6 stellt die mittlere Laufzeit der einzelnen90% Echtzeit

Implementierungen gegeneinander. Die Nachverarbeitung benötigt ca.2 % der Echtzeit und ist nicht einzeln aufgeführt. Der wesentliche Un-terschied ist die Rechenzeit, welche für den Kombinations- und Kor-relationsschritt benötigt wird. Diese konnte von 18 bzw. 10 mal Echt-zeit beim Jeffress-Korrelator auf schließlich 38 % bzw. 23 % Echtzeitgesenkt werden.

Core2 Quad Core2 Duo

Implementierung Gesamt Filter Spikes Ko&Ko Gesamt Filter Spikes Ko&Ko

Jeffress 1116 % 34.1 % 41.6 % 1026 % 1860 % 38.4 % 61.6 % 1758 %

FFTW 163 % 31.6 % 35.4 % 95.0 % 264 % 38.9 % 61.6 % 162.4 %

match 124 % 30.5 % 34.9 % 56.9 % 198 % 38.2 % 61.7 % 96.3 %

indexed 90 % 26.1 % 40.7 % 22.6 % 137 % 31.0 % 68.0 % 37.8 %

Tabelle 6.: Laufzeitvergleich Lokalisation gesamt, alle Angaben bezüglich Echtzeit

a.2 werkzeuge

Zur Evaluierung wurde eine Reihe von Programmen geschrieben. DieImplementierung der Lokalisierung als Kommandozeilen- und grafi-sches Werkzeug werden hier kurz dargestellt.

88 implementierung

Page 97: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Parameter Name Einheit Beschreibung

--radius ra cm Radius des Mikrophonarrays

--sampling-frequency fs Hz Abtastrate

--alias erlaubt räumliches Aliasing

--time-limit s maximale Länge der Eingabedaten

--time-offset s Startzeitpunkt der Berechnung in den Eingabedaten

--max-elevation ◦ maximale Neigung der Halbkugelrückprojektion,ein Wert von 0 schaltet auf Kreisrückprojektion

--bands nb Anzahl der Frequenzbänder

--fmin, --fmax fb Hz erste und letzte Mittenfrequenz

--frame-step S ms Schrittweite des Korrelationsfensters

--frame-length T0 ms Basisbreite des Korrelationsfensters

--spike-mth thmod dB Modulationsschwelle für Spikeauslösung

--spike-ath thabs absolute Schwelle für Spikeauslösung

--spike-avg L ms Länge des moving average Fensters

--spike-pre D ms Versatz des Signals zum moving average Fenster

--gamma γ Hamacher t-Norm

--post - separierte Nachverarbeitungsschritte opt:p1:p2

Tabelle 7.: Verarbeitungsparameter auf der Kommandozeile

Option Beschreibung

bs Frequenzbänder summieren |B| > p1 e > p2

es über Neigung summieren

av Mittelwert über p1 Sekunden

max argmax-Lokalisierung

poap PoAPα p1 zu p2 Grad Mittelwert

grid PoAP gridsearch p1 zu p2 Grad Mittelwert

Tabelle 8.: Nachverarbeitungsdefinition auf der Kommandozeile

Kommandozeilenberechnung

Das Komandozeilenwerkzeug corfbar4cmd (bzw. die architekturopti-mierte Variante corfbar4cmd-core2) berechnet die Lokalisierung auseiner WAV-Datei und erzeugt eine CSV-Datei mit den Ergebnissen. DieAufrufsyntax ist wie folgt:

corfbar4cmd [ --bands # | --fmin #.# | --fmax #.# | --radius #.# |

--sampling-frequency #.# | --alias |

--time-limit #.# | --time-offset #.# |

--max-elevation #.# | --spike-ath #.# |

--spike-mth #.# | --spike-avg #.# | --spike-pre #.# |

--frame-step #.# | --frame-length #.# | --gamma #.# |

--post (opt[:p1[:p2]])[-(opt[:p1[:p2]])]+ |

--outfile <outfile> ] <filename>

Tabelle 7 listet alle Parameter auf, Tabelle 8 alle möglichen Nachverar-beitungsschritte. Als Nachverarbeitung können verschiedene Schritte

A.2 werkzeuge 89

Page 98: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 58.: Lokalisierungs GUI

in beliebiger Reihenfolge angegeben werden. Die einzelnen Schrittewerden per „-“ separiert und können bis zu zwei per „:“ separier-te Parameter erhalten, so wird z.B. die übliche Nachverarbeitung alsbs:4-av:1-poap:5:45 angegeben.

Lokalisierungs GUI

Die Kernimplementierungen der einzelnen Lokalisierungsverfahrenwurden jeweils mit einer Qt42-GUI versehen, um interaktiv am Bild-schirm Parameter bestimmen und bewerten zu können. Die Para-meter entsprechen dabei denen aus Tabelle 7 und 8. Abbildung 58

zeigt die Oberfläche der Implementierung. Links sind die Parame-ter der Lokalisierung aufgeführt, rechts werden die vier Projektionenin Drehwinkel×Neigungswinkel, Drehwinkel×Zeit, Drehwinkel×Fre-quenz und Frequenz×Zeit angezeigt.

2 http://qt.nokia.com/

90 implementierung

Page 99: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

A B B I L D U N G S V E R Z E I C H N I S

Abbildung 1 Konferenzszenario 2

Abbildung 2 Sprachproduktion und -erkennung bei Menschen 6

Abbildung 3 Röhrenmodell der Sprachproduktion 7

Abbildung 4 Schallausbreitung im Raum 10

Abbildung 5 Reflektogramm 11

Abbildung 6 Mikrophonpaar im Fernfeld 12

Abbildung 7 Mikrophonarrays 13

Abbildung 8 Menschliches Gehör 15

Abbildung 9 Hörfläche 16

Abbildung 10 Impulskodierung der Wanderwelle 17

Abbildung 11 Spektrogramm 18

Abbildung 12 Auditive Pfade 19

Abbildung 13 Bei Sprachwahrnehmung beteiligte Hirnareale 20

Abbildung 14 Abstraktion und Algoritmen 21

Abbildung 15 Cocktail-Party-Effekt 22

Abbildung 16 Gruppierungsprinzipien der ASA 23

Abbildung 17 CASA Modell der Sprachverarbeitung 25

Abbildung 18 Summe, Produkt und Hamacher-t-Norm 32

Abbildung 19 Hamacher- und SRP-PHAT spatial likelihood 33

Abbildung 20 Clusteringansatz für Sprecherlokalisierung 34

Abbildung 21 Filter des Auditiven Nervs 36

Abbildung 22 Impulsantwort eines Gammatonfilters 36

Abbildung 23 Gammaton-Filterbank 37

Abbildung 24 Jeffress-Colburn-Modell 38

Abbildung 25 KEMAR Dummy 39

Abbildung 26 künstlichem Außenohr des Roboters iCub 41

Abbildung 27 Sprecherverfolgung im Modell von Roman 42

Abbildung 28 CASA Spracherkennung Srinivasan/Wang 44

Abbildung 29 Hallrobuste CASA Spracherkennung 46

Abbildung 30 Verarbeitungsstruktur 48

Abbildung 31 Mikrophonarray im Konferenzszenario 49

Abbildung 32 Auditive Filterbank 51

Abbildung 33 Peak-over-Average Impulserzeugung 52

Abbildung 34 Schallfront am zirkulären Mikrophonarray 56

Abbildung 35 Korrelationsvariation 59

Abbildung 36 Lokalisierung zweier Sprecher in der FINCA 62

Abbildung 37 AV16.3 Aufnahmesituation 64

Abbildung 38 Aufnahmesetup in der FINCA 64

Abbildung 39 Vergleich der Spikegenerierung 65

Abbildung 40 ITD-Korrelation; Mikrophonzusammenfassung 67

Abbildung 41 Rückprojektion Kreis und Kugel 67

Abbildung 42 Energieverteilung verschiedener t-Normen 69

Abbildung 43 Szenario im simulierten Konferenzraum 70

Abbildung 44 Paramertervariation Lokalisierung 71

Abbildung 45 Vergleich der Spikegenerierungsvorschriften 72

Abbildung 46 Vergleich der Hamacher-t-Normen 72

Abbildung 47 Vergleich der Modulationsschwellen 73

Abbildung 48 Zeitliche Mittelung und Winkel-PoA 74

Abbildung 49 Zeitliche Integration 74

91

Page 100: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

Abbildung 50 Lokalisierung zweier simulierter Sprecher 75

Abbildung 51 Trennbarkeit simulierter gleichzeitige Sprecher 76

Abbildung 52 Detektionen für AV16.3-Sequenz 1 78

Abbildung 53 Einzelner Sprecher in der FINCA 79

Abbildung 54 Detektionen zu FINCA-Sequenz 1 79

Abbildung 55 Detektionen zu FINCA-Sequenz 2 81

Abbildung 56 FINCA-Sequenz 3 81

Abbildung 57 Detektionen zu FINCA-Sequenz 3 81

Abbildung 58 Lokalisierungs GUI 90

T A B E L L E N V E R Z E I C H N I S

Tabelle 1 Subbänder des zirkulären Mikrophonarrays 48

Tabelle 2 Detektionen eines Sprechers nach Position 79

Tabelle 3 Detektionen zu FINCA-Sequenz 3 81

Tabelle 4 Laufzeitvergleich Gammaton Filterbank 87

Tabelle 5 Laufzeitvergleich Korrelation 88

Tabelle 6 Laufzeitvergleich Lokalisation 88

Tabelle 7 Kommandozeile: Verarbeitungsparameter 89

Tabelle 8 Kommandozeile: Nachverarbeitung 89

A L G O R I T H M E N V E R Z E I C H N I S

Algorithmus 1 Schnelle Impulskorrelation 55

Algorithmus 2 Paarweise Kombination 57

Algorithmus 3 Kombination eines Paares 57

92

Page 101: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

L I T E R A T U R V E R Z E I C H N I S

[AB79] J. B. Allen und D. A. Berkley: Image Method for EfficientlySimulating Small-Room Acoustics. Journal of the AcousticalSociety of America, 65(4):943–950, 1979.

[All94] J. B. Allen: How do Humans Process and RecognizeSpeech? IEEE Transaction on Speech and Audio Proces-sing, 2(4):567–577, Oktober 1994.

[Ata06] B. Atal: The History of Linear Prediction. IEEE Signal Pro-cessing Magazine, 23(2):154–161, 2006.

[Bar04] J. Barker: The RESPITE CASA Toolkit Project – A Toolkitfor Computational Auditory Scene Analysis. http://www.dcs.shef.ac.uk/~jon/ctk.html, 2004.

[Beh06] G. K. Behler: How to Compare Concert Halls by Listening toMusic. In: Joint ASA/ASJ Meeting, Honolulu, Hawaii, 2006.

[BH99] J. D. Bard und F. M. Ham: Time Difference of Arrival Di-lution of Precision and Applications. IEEE Transactions onSignal Processing, 47(2):521–523, Februar 1999.

[Bla96] J. Blauert: Spatial Hearing - Revised Edition: The Psychophy-sics of Human Sound Localization. The MIT Press, October1996.

[Boh88] D. A. Bohn: Environmental Effects on the Speed of Sound.Journal of the Audio Engineering Society, 36, April 1988.

[Bra89] K. Brandenburg: Ein Beitrag zu den Verfahren und derQualitätsbeurteilung für hochwertige Musikcodierung. Dok-torarbeit, Technische Fakultät der Universität Erlangen-Nürnberg, 1989.

[Bre90] A. S. Bregman: Auditory Scene Analysis. MIT Press, 1990.

[BvH07] M. Bürck und J. L. van Hemmen: Modeling the CochlearNucleus: A Site for Monaural Echo Suppression? Journal ofthe Acoustical Society of America, 122:2226–2235, 2007.

[BW01] M. Brandstein und D. Ward (Herausgeber): MicrophoneArrays. Springer, 2001.

[CD78] S. Colburn und N. I. Durlach: Models of Binaural Interac-tion. In: E. C. Carterette und M. P. Friedman (Heraus-geber): Handbook of Perception, Seiten 467–518. AcademicPress, New York, 1978.

[Che53] E. C. Cherry: Some Experiments on the Recognition of Speech,with One and with Two Ears. Journal of the Acoustical So-ciety of America, 25(5):975–979, 1953.

[CKR09] M. Costa, V. Koivunen und A. Richter: Low ComplexityAzimuth and Elevation Estimation for Arbitrary Array Con-figurations. In: IEEE International Conference on Acoustics,Speech, and Signal Processing, Seiten 2185–2188, Taipei, Tai-wan, 2009.

93

Page 102: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

[CMWB07] H. Christensen, N. Ma, S. N. Wrigley und J. Barker:Integrating Pitch and Localisation Cues at a Speech FragmentLevel. In: Interspeech 2007; Antwerp, Belgium, Seiten 2769–2772, 2007.

[Coo06] M. P. Cooke: A Glimpsing Model of Speech Perception in Noi-se. Journal of the Acoustical Society of America, 119:1562–1573, 2006.

[DHS01] R. O. Duda, P. E. Hart und D. G. Stork: Pattern Classifica-tion. John Wiley & Sons, New York, 2 Auflage, 2001.

[DIH+09] S. Devore, A. Ihlefeld, K. Hancock, B. Shinn-Cunningham und B. Delgutte: Accurate Sound Localiza-tion in Reverberant Environments is mediated by Robust En-coding of Spatial Cues in the Auditory Midbrain. Neuron,16;62(1):123–34, April 2009.

[Dob06] G. Doblinger: An Adaptive Microphone Array for OptimumBeamforming and Noise Reduction. In: 14th European SignalProcessing Conference, Florence, Italy, 2006.

[Fin03] G. A. Fink: Mustererkennung mit Markov-Modellen. Teubner,2003.

[FJ05] M. Frigo und S. G. Johnson: The Design and Implementati-on of FFTW3. Proceedings of the IEEE, 93(2):216–231, 2005.Special issue on “Program Generation, Optimization, andPlatform Adaptation”.

[Fuk90] K. Fukunaga: Introduction to Statistical Pattern Recognition.Academic Press Professional, Inc., San Diego, CA, USA, 2

Auflage, 1990.

[GB01] S. L. Gay und J. Benesty (Herausgeber): Acoustic SignalProcessing for Telecommunication. Kluwer, 2001.

[GM90] B. Glasberg und B. Moore: Derivation of Auditory Fil-ter Shapes from Notched-Noise Data. Hearing Research,47(1–2):103–138, August 1990.

[GM94] W. G. Gardner und K. D. Martin: HRTF Measurements ofa KEMAR Dummy Head Microphone. Technischer Bericht,MIT Media Lab, 1994.

[GM00] B. Gold und N. Morgan: Speech and Audio Signal Proces-sing. Wiley, 1 Auflage, 2000.

[Gro03] B. Grothe: New Roles for Synaptic Inhibtion in Sound Locali-sation. Nature, 4(7):540–550, 2003.

[Gus96] F. Gustafsson: Determining the Initial States in Forward-Backward Filtering. IEEE Transactions on Signal Processing,44(4):988–992, 1996.

[HAH01] X. Huang, A. Acero und H.-W. Hon: Spoken Language Pro-cessing: A Guide to Theory, Algorithm, and System Develop-ment. Prentice Hall, Upper Saddle River, NJ, 2001.

[Ham91] R. W. Hamming: The Art of Probability for Scientists and En-gineers. Addison-Wesley, 1991.

[Han89] S. Handel: Listening. MIT Press, 1989.

94 literaturverzeichnis

Page 103: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

[HBB06] S. Harding, J. Barker und G. Brown: Mask Estimation forMissing Data Speech Recognition based on Statistics of Binau-ral Interaction. IEEE Transactions on Audio, Speech, andLanguage Processing, 14(1):58–67, 2006.

[Hel93] J. Helbig: Merkmale Deutscher Plosive aus der Sicht der Au-tomatischen Spracherkennung. Doktorarbeit, TU Dresden,1993.

[Hen09] M. Hennecke: Automatische Kalibrierung verteilter Mikro-phonfelder. Diplomarbeit, TU Dortmund; Fakultät für In-formatik in Zusammenarbeit mit dem Institut für Robo-terforschung, Dortmund, Germany, 2009.

[HLSVL06] J. Hörnstein, M. Lopes, J. Santos-Victor und F. Lacer-da: Sound Localization for Humanoid Robots – Building Audio-Motor Maps based on the HRTF. In: IEEE/RSJ InternationalConference on Intelligent Robots and Systems, Seiten 1170–1176, Beijing, China, 2006.

[HOS95] J. Huang, N. Ohnishi und N. Sugie: A Biomimetic Sys-tem for Localization and Separation of Multiple Sound Sources.IEEE Transactions on Instrumentation and Measurement,44(3):733–738, 1995.

[IKN98] L. Itti, C. Koch und E. Niebur: A Model of Saliency-BasedVisual Attention for Rapid Scene Analysis. IEEE Transactionson Pattern Analysis and Machine Intelligence, 20(11):1254–1259, 1998.

[Jef48] L. A. Jeffress: A Place Theory of Sound Localization. Jour-nal of Comparative & Physiological Psychology, 41:35–39,1948.

[Jeh05] T. Jehan: Creating Music by Listening. Doktorarbeit, MIT,2005.

[KAK06] Y.-I. Kim, S. An und R. Kil: Zero-Crossing Based BinauralMask Estimation for Missing Data Speech Recognition. In:IEEE International Conference on Acoustics, Speech, and Si-gnal Processing, Band 5, Toulouse, France, 2006.

[Kat91] J. Kates: A time-domain digital cochlear model. IEEE Transac-tions on Signal Processing, 39(12):2573–2592, 1991.

[KPTN08] M. Kuhne, D. Pullella, R. Togneri und S. Nordholm:Towards the Use of Full Covariance Models for Missing Da-ta Speaker Recognition. In: IEEE International Conference onAcoustics, Speech, and Signal Processing, Seiten 4537–4540,Las Vegas, Nevada, USA, 2008.

[KR09] D. Khaykin und B. Rafaely: Coherent Signals Direction-of-Arrival Estimation using a Spherical Microphone Array: Fre-quency Smoothing Approach. In: IEEE Workshop on Appli-cations of Signal Processing to Audio and Acoustics, Seiten221–224, 2009.

[Kut00] H. Kuttruff: Room Acoustics. Taylor & Francis, 4 Auflage,2000.

literaturverzeichnis 95

Page 104: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

[Lat06] G. Lathoud: Spatio-temporal Analysis of Spontaneous Speechwith Microphone Arrays. Doktorarbeit, Ecole PolytechniqueFéderale de Lausanne, 2006.

[LDC] The LDC Corpus Catalog – Linguistic Data Consortium, Uni-versity of Pennsylvania. http://www.ldc.upenn.edu/.

[Leh06] E. Lehmann: Particle Filtering Approach to Adaptive Time-Delay Estimation. In: IEEE International Conference on Acou-stics, Speech, and Signal Processing, Band 4, Toulouse, Fran-ce, 2006.

[Lin86a] W. Lindemann: Extension of a Binaural Cross-correlation Mo-del by Contralateral Inhibition. I. Simulation of Lateralizationfor Stationary Signals. Journal of the Acoustical Society ofAmerica, 80:1608–1622, 1986.

[Lin86b] W. Lindemann: Extension of a Binaural Cross-correlation Mo-del by Contralateral Inhibition. II. The Law of the First Wa-vefront. Journal of the Acoustical Society of America,80:1623–1630, 1986.

[Lin98] B. Lincoln: An Experimental High Fidelity Perceptual AudioCoder. Technischer Bericht, University Stanford, CCRMA,1998.

[LK00] A. M. Law und D. W. Kelton: Simulation Modelling andAnalysis. McGraw-Hill, April 2000.

[LO07] G. Lathoud und J.-M. Odobez: Short-Term Spatio-TemporalClustering Applied to Multiple Moving Speakers. IEEE Tran-sactions on Audio, Speech, and Language Processing,2007.

[LOGP05] G. Lathoud, J.-M. Odobez und D. Gatica-Perez: AV16.3:An Audio-Visual Corpus for Speaker Localization and Tracking.In: Proceedigns of the International Workshop ; LNCS, Band3361, Seiten 182–195, Martigny, Switzerland, 2005.

[LPGR+09] J. Liu, D. Perez-Gonzalez, A. Rees, H. Erwin undS. Wermter: Multiple Sound Source Localisation in Rever-berant Environments Inspired by the Auditory Midbrain. In:C. Alippi, M. Polycarpou, C. Panayiotou und G. El-linas (Herausgeber): Artificial Neural Networks – ICANN2009; 19th International Conference on Artificial Neural Net-works; Limassol, Cyprus, September 14-17, 2009, Band 5769

der Reihe Lecture Notes in Computer Science, Seiten 208–217.Springer, 2009.

[Lyo83] R. Lyon: A computational model of binaural localization andseparation. In: IEEE International Conference on Acoustics,Speech, and Signal Processing, Band 8, Seiten 1148–1151, Bo-ston, Massachusetts, USA, 1983.

[LYWJ10] Y. Liu, Z. Yang, X. Wang und L. Jiang: Location, Localiza-tion, and Localizability. Journal of Computer Science andTechnology, 25(2):274–297, March 2010.

[Mar95a] K. D. Martin: Estimating Azimuth and Elevation from Inter-aural Differences. In: IEEE ASSP Workshop on Applications ofSignal Processing to Audio and Acoustics, Seiten 96–99, Oct1995.

96 literaturverzeichnis

Page 105: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

[Mar95b] R. Martin: Freisprecheinrichtungen mit mehrkanaliger Echo-kompensation und Störgeräuschunterdrückung. Doktorarbeit,RWTH Aachen, 1995.

[MF00] Z. Michalewicz und D. B. Fogel: How to Solve It: ModernHeuristics. Springer, 2000.

[MHA08] R. Martin, U. Heute und C. Antweiler: Advances in Di-gital Speech Transmission. Wiley, 1 Auflage, 2008.

[MM03] D. Moore und I. McCowan: Microphone Array Speech Re-cognition: Experiments on Overlapping Speech in Meetings. In:IEEE International Conference on Acoustics, Speech, and SignalProcessing, Band 5, Seite 497, 2003.

[MM08] N. Madhu und R. Martin: A Scalable Framework for Mul-tiple Speaker Localization and Tracking. In: 11th InternationalWorkshop on Acoustic Echo and Noise Control, Seattle, Wa-shington USA, September 2008.

[MS01] I. A. McCowan und S. Sridharan: Multi-Channel Sub-Band Speech Recognition. EURASIP Journal on Applied Si-gnal Processing, 2001(1):45–52, 2001.

[MVSB06] W.-K. Ma, B.-N. Vo, S. S. Singh und A. Baddeley: Trackingan unknown time-varying Number of Speakers using TDOAMeasurements: A Random Finite Set Approach. IEEE Transac-tions on Signal Processing, 54:3291–3304, 2006.

[Mø77] A. R. Møllner: Frequency Selectivity of Single Auditory-Nerve Fibers in Response to Broad-Band Noise Stimuli. Journalof the Acoustical Society of America, 62(1):135–142, 1977.

[NNM+06] K. Nakadai, H. Nakajima, M. Murase, S. Kaijiri, K. Ya-mada, T. Nakamura, Y. Hasegawa, H. Okuno undH. Tsujino: Robust Tracking of Multiple Sound Sources bySpatial Integration of Room and Robot Microphone Arrays. In:IEEE International Conference on Acoustics, Speech, and SignalProcessing, Band 4, Seiten Iv–Iv, 2006.

[OS09] N. Ohwada und K. Suyama: Multiple Sound SourcesTracking Method based on Subspace Tracking. In: IEEE Work-shop on Applications of Signal Processing to Audio and Acou-stics, Seiten 217–220, 2009.

[PBB06] K. Palomäki, G. Brown und J. Barker: Recognition of Re-verberant Speech using Full Cepstral Features and SpectralMissing Data. In: IEEE International Conference on Acou-stics, Speech, and Signal Processing, Band 1, Toulouse, Fran-ce, 2006.

[PBO00] H. Purwins, B. Blankertz und K. Obermayer: ComputingAuditory Perception. Organised Sound, 5(3):159–171, 2000.

[PBW04] K. J. Palomäki, G. J. Brown und D. Wang: A Binaural Pro-cessor for Missing Data Speech Recognition in the Presence ofNoise and Small-Room Reverberation. Speech Communicati-on, 43(4):361–378, 2004.

[PH01] D. W. R. Paulus und J. Hornegger: Applied Pattern Reco-gnition – A practical Introduction to Image and Speech Proces-sing in C++. Vieweg, 2001.

literaturverzeichnis 97

Page 106: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

[PK06] J. Peterson und C. Kyriakakis: Analysis of Source Locali-zation in Reverberant Environments. In: IEEE Workshop onSensor Array and Multichannel Processing, Seiten 672–676,Waltham, Massachusetts, USA, 2006.

[PKCF08] T. Plötz, C. Kleine-Cosack und G. A. Fink: Towards Hu-man Centered Ambient Intelligence. In: E. Aarts, J. L. Crow-ley, B. de Ruyter, H. Gerhäuser, A. Pflaum, J. Schmidt

und R. Wichert (Herausgeber): European Conference onAmbient Intelligence, Band 5355 der Reihe Lecture Notes inComputer Science, Seiten 26–43. Springer, 2008.

[PKV08] P. Pertilä, T. Korhonen und A. Visa: Measurement Com-bination for Acoustic Source Localization in a Room Environ-ment. EURASIP Journal on Audio, Speech, and Music Pro-cessing, 2008:1–14, 2008.

[Plö07] T. Plötz: The FINCA: A Flexible, Intelligent eNvironmentwith Computational Augmentation. http://finca.irf.de,2007.

[PM96] J. Prokakis und D. Manolakis: Digital Signal Processing:Principles, Algorithms and Applications. Prentice Hall, 3 Auf-lage, 1996.

[PNSHR88] R. Patterson, I. Nimmo-Smith, J. Holdsworth und P. Ri-ce: An Efficient Auditory Filterbank based on the GammatoneFunctions. Technischer Bericht APU Report 2341, MRC,Applied Psychology Unit, Cambridge U.K, 1988.

[Pol88] G. Polya: How to Solve It. Princeton University Press, 1988.

[PS06] H.-M. Park und R. Stern: Spatial Separation of Speech Si-gnals using Continuously-Variable Masks Estimated from Com-parisons of Zero Crossings. In: IEEE International Conferenceon Acoustics, Speech, and Signal Processing, Band 4, Toulou-se, France, 2006.

[PZSR+07] M. Pecka, T. P. Zahn, B. Saunier-Rebori, I. Siveke, F. Fel-my, L. Wiegrebe, A. Klug, G. Pollak und B. Grothe: In-hibiting the Inhibition: A Neuronal Network for Sound Localiza-tion in Reverberant Environments. Journal of Neuroscience,27:1782–1790, 2007.

[RLB+08] J. Ruesch, M. Lopes, A. Bernardino, J. Hornstein,J. Santos-Victor und R. Pfeifer: Multimodal Saliency-Based Bottom-Up Attention – A Framework for the HumanoidRobot iCub. In: IEEE International Conference on Robotics andAutomation, Pasadena, California, Seiten 962–967, 2008.

[RS78] L. R. Rabiner und R. W. Schafer: Digital Processing ofSpeech Signals. Prentice-Hall, 1978.

[RSS04] B. Raj, M. L. Seltzer und R. M. Stern: Reconstruction ofMissing Features for Robust Speech Recognition. Speech Com-munication, 43(4):275–296, 2004.

[RW03] N. Roman und D. Wang: Binaural Tracking of Multiple Mo-ving Sources. In: IEEE International Conference on Acoustics,Speech, and Signal Processing, Band 5, Seite 149, 2003.

98 literaturverzeichnis

Page 107: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

[RW08] N. Roman und D. Wang: Binaural Tracking of Multiple Mo-ving Sources. IEEE Transactions on Audio, Speech, andLanguage Processing, 16(4):728–739, 2008.

[RWB03] N. Roman, D. Wang und G. Brown: Speech Segregation ba-sed on Sound Localization. Journal of the Acoustical Societyof America, 114:2236–2252, 2003.

[Sco05] S. K. Scott: Auditory processing – speech, space and auditoryobjects. Current Opinion in Neurobiology, 15(2):197–201,2005.

[SGK+08] R. Stern, E. Gouvea, C. Kim, K. Kumar und H.-M. Park:Binaural and Multiple-Microphone Signal Processing Motiva-ted by Auditory Perception. In: Joint Workshop on Hands-Free Speech Communication and Microphone Arrays, Seiten98–103, Trento, Italy, 2008.

[SGT07] R. M. Stern, E. B. Gouvea und G. Thattai: ”polyaural”array processing for automatic speech recognition in degradedenvironments. In: INTERSPEECH Proceedings, Seiten 926–929, 2007.

[Sha85] S. A. Shamma: Speech Processing in the Auditory System I:The Representation of Speech Sounds in the Responses of theAuditory Nerve. Journal of the Acoustical Society of Ame-rica, 78(5):1612–1621, 1985.

[Sla93] M. Slaney: An efficient implementation of the Patterson-Holdsworth auditory filter bank. Technischer Bericht 35, Ap-ple Computer, Inc., 1993.

[Smi99] S. W. Smith: The Scientists and Engineer’s Guide to DigitalSignal Processing. California Technical Publishing, 2 Auf-lage, 1999.

[SN09] A. Saxena und A. Y. Ng.: Learning Sound Location from aSingle Microphone. In: International Conference on Roboticsand Automation, Kobe, Japan, 2009.

[SSJW06] S. Srinivasan, Y. Shao, Z. Jin und D. Wang: A Computatio-nal Auditory Scene Analysis System for Robust Speech Recogni-tion. In: Interspeech, Seiten 73–76, Pittsburgh, Pennsylvania,USA, 2006.

[ST95] E. G. Schukat-Talamazzini: Automatische Spracherken-nung. Vieweg, Wiesbaden, 1995.

[SW06] Y. Shao und D. Wang: Model-based sequential organizationin cochannel speech. IEEE Transactions on Audio, Speech,and Language Processing, 14(1):289–298, 2006.

[SW07] S. Srinivasan und D. Wang: Transforming Binary Uncer-tainties for Robust Speech Recognition. IEEE Transactions onAudio, Speech, and Language Processing, 15(7):2130–2140,2007.

[Täg98] W. Täger: Near Field Superdirectivity (NFSD). In: IEEE In-ternational Conference on Acoustics, Speech, and Signal Proces-sing, Band 4, Seiten 2045–2048, Seattle, WA, USA, 1998.

literaturverzeichnis 99

Page 108: NEUROBIOLOGISCH INSPIRIERTE IN REALEN UMGEBUNGENpatrec.cs.tu-dortmund.de/pubs/theses/da_plinge.pdf · Die neuronale Merkmalsextraktion entlang der Neurobiologie auditory pathways

[Ter79] E. Terhardt: Calculating Virtual Pitch. Hearing Research,1:155–182, 1979.

[TG80] A. Treisman und G. Gelade: A Feature–Integration Theoryof Attention. Cognitive Psychology, 12:97–136, 1980.

[Tra90] H. Traunmüller: Analytical expressions for the tonotopic sen-sory scale. Journal of the Acoustical Society of America,88:97–100, 1990.

[UA99] M. Unoki und M. Akagi: A Method of Signal Extractionfrom Noisy Signal based on Auditory Scene Analysis. SpeechCommunication, 27(3):261–279, 1999.

[VLAO05] K. Voutsas, G. Langner, J. Adamy und M. Ochse: ABrain-like Neural Network for Periodicity Analysis. IEEE Tran-sactions on Systems, Man, and Cybernetics, Part B: Cyber-netics, 35(1):12–22, 2005.

[WB06] D. Wang und G. J. Brown (Herausgeber): ComputationalAuditory Scene Analysis: Principles, Algorithms, and Applica-tions. IEEE Press/Wiley Interscience, 2006.

[WEA+06] V. Willert, J. Eggert, J. Adamy, R. Stahl und E. Korner:A Probabilistic Model for Binaural Sound Localization. IEEETransactions on Systems, Man, and Cybernetics, Part B:Cybernetics, 36(5):982–994, 2006.

[WW83] A. Weiss und E. Weinstein: Fundamental Limitations in Pas-sive Time Delay Estimation – Part I: Narrow-Band Systems.IEEE Transactions on Acoustics, Speech and Signal Pro-cessing, 31(2):472–486, 1983.

[WW84] E. Weinstein und A. Weiss: Fundamental Limitations inPassive Time-Delay Estimation – Part II: Wide-Band Systems.IEEE Transactions on Acoustics, Speech and Signal Proces-sing, 32(5):1064–1078, 1984.

[ZFZ08] C. Zhang, D. Florencio und Z. Zhang: Why does PHATwork well in Lownoise, Reverberative Environments? In: IEEEInternational Conference on Acoustics, Speech, and Signal Pro-cessing, Seiten 2565–2568, 2008.

[Zwi82] E. Zwicker: Psychoakustik. Springer, 1982.

100 literaturverzeichnis