„SPRACHVERARBEITUNG UND SPRACHÜBERTRAGUNG“extras.springer.com/2012/978-3-642-31502-2... · an der TU Berlin entwickelt wurde. Im Rahmen des eL-IT Teilprojektes „Elektronische

Multimediale Präsentationen zum Buch

„SPRACHVERARBEITUNG UND SPRACHÜBERTRAGUNG“

K. Fellbaum

Liebe Leserinnen und Leser,

die vorliegende Präsentation soll zur Veranschaulichung und Ergänzung des Buches „Sprachverarbeitung und Sprachübertragung“ dienen. Der Schwerpunkt liegt auf der Sprach- und Hörphysiologie.

Die Präsentation basiert weitgehend auf Arbeiten, die im Rahmen des BMBF-Förderprogramms „Neue Medien in der Bildung“ in dem Projekt „eLearning-Module für Studiengänge der Informations-, Kommunikations- und Medientechnik (eL-IT)“, Teilprojekt „Elektronische Sprachsignalverarbeitung“, durchgeführt wurden.

Eine ausführliche Darstellung des gesamten eL-IT-Projektes bietet die Dokumentation: K. Fellbaum, M. Göcks (Hrsg.): eLearning an der Hochschule, Shaker Verlag Aachen 2004, ISBN 3-8322-2531-5.

In der nachfolgenden Präsentation finden Sie eine Reihe von Animationen, die den Sprechvorgang und Hörphänomene veranschaulichen. Besonders hervorzuheben ist eine interaktive Animation: ein Modell der Spracherzeugung, das in seiner wesentlichen Struktur von dem damaligen Informatik-Studenten Jörg Richter an der TU Berlin entwickelt wurde.

Im Rahmen des eL-IT Teilprojektes „Elektronische Sprachsignalverarbeitung“ waren maßgeblich beteiligt: Dr. M. Göcks als Projektkoordinator, B. Malys und H.-J. Ullmann vom Multimediazentrum der BTU Cottbus und meine Mitarbeiterin Dr. B. Ketzmerick. Allen genannten Personen bin ich zu großem Dank verpflichtet.

Abschließend bitte ich Sie noch, die nachfolgenden technischen Hinweise zu beachten.

Und nun wünsche ich Ihnen viel Vergnügen beim Erkunden der Präsentationen.

Klaus Fellbaum

TECHNISCHE HINWEISE

Die nachfolgenden technischen Hinweise dienen vor allem dazu, den problemlosen Ablauf der multimedialen Anwendungen zu ermöglichen.

Die Präsentation enthält Animations-, Bild- und Audiodateien.

Die Nutzung der Präsentation erfordert einen aktuellen Internet-Browser mit den folgenden Erweiterungen:

• Adobe® Flash® Player (Adobe™ Systems)

• Java™ Plug-In (Oracle™)

Links zum Download (Stand vom 28.10.2012):

www.adobe.com/go/getflashplayer_de www.java.com/de/download/index.jsp

COPYRIGHT

Die vorliegende Dokumentation ist urheberrechtlich geschützt. Sie kann für den privaten Gebrauch unentgeltlich verwendet werden. Jegliche kommerzielle Nutzung sowie Veränderungen oder Erweiterungen der Dokumentation bedürfen der Zustimmung des Autors.

www.adobe.com/go/getflashplayer_de

www.java.com/de/download/index.jsp

Inhaltsverzeichnis

1. Sprachphysiologie und Spracherzeugung

1.1 Physiologie des Sprechtraktes

1.2 Lautbildung und Lautklassifikation

1.3 Modell der menschlichen Spracherzeugung

2. Hörphysiologie und Hörpsychologie

2.1 Hörphysiologie

2.2 Hörvorgang

2.3 Spektrale und zeitliche Verdeckung

3. Schlussbemerkung

1 Sprachphysiologie und Spracherzeugung

1.1 Physiologie des SprechtraktesSprache und das Sprechen wurden entwicklungsgeschichtlich betrachtet erst spät „erfunden“. Die am Sprechen beteiligten Organe wie Lunge, Bronchien, Luftröhre, Kehlkopf, Rachen, Nase und Mund hatten zunächst nur die Funktion der Atmung und der Nahrungsaufnahme sowie Schutzfunktionen, nämlich zu verhindern, dass Nahrung in die Atmungsorgane gelangt.

Im übertragenen Sinne kann man jedoch den Kehlkopf (Larynx) als Stimmorgan bezeichnen. Im Laufe der Zeit entwickelte sich dieser zu einem außerordentlich komplizierten und flexiblen Gebilde, das die Stimmerzeugung und damit die Erzeugung der Anregungsfunktion für stimmhafte Sprechlaute ermöglicht (Abb. 1). Für eine detaillierte Darstellung des Kehlkopfes klicken Sie bitte auf den angegebenen Bildausschnitt.

Die Stimmritze ist beim Atmen (Aspiration) weit geöffnet. Beim Sprechen (Phonation) hängt die Stimmritzen-Weite vom Laut ab. Ist der Laut stimmhaft, so ist die Stimmritze weitgehend geschlossen, im stimmlosen Fall dagegen etwas geöffnet.

Betrachten wir zunächst die Erzeugung eines stimmhaften Lautes (z.B. eines Vokals). Der aus der Lunge durch die Luftröhre kommende Luftstrom staut sich vor der Glottis, die anfänglich durch Muskelkraft verschlossen ist.

Bei genügend hohem Druck wird die Muskelkraft überwunden und durch die auseinandergedrückten Stimmbänder kann die Luft entweichen. Damit sinkt der Druck, die Glottis schließt sich, der Druck baut sich erneut auf usw. Auf diese Weise entsteht eine selbsterregte Schwingung der Stimmbänder und damit zusammenhängend eine periodische Druckwelle. Diese stellt das Anregungssignal für die stimmhaften Laute dar. Die Frequenz des Anregungskanals wird Sprachgrundfrequenz oder kurz Grundfrequenz genannt. Sie liegt zwischen etwa 80 Hz (tiefe Männerstimmen) und 350 Hz (Kinderstimmen).

Abb. 1: Anatomie des Stimmapparates

Wenn Sie auf die Abbildung 2 klicken, sehen Sie eine Zeitlupenaufnahme der schwingenden Stimmbänder .

Eine andere Form der Anregung ergibt sich, wenn die Stimmritze wie beim Atmen geöffnet bleibt und der hindurchtretende Luftstrom sich an Kanten und Ritzen des Artikulationstraktes bricht. Es entsteht dann ein rauschförmiges Anregungssignal, das ein kontinuierliches Spektrum mit noch relativ hohen Energieanteilen bei hohen Frequenzen aufweist. Der rauschförmige Charakter kommt auch bei den erzeugten stimmlosen Lauten zum Ausdruck.

Schließlich findet man häufig eine „gemischte“ Anregung, die also aus stimmhaften und stimmlosen Anteilen besteht (etwa das ‚g‘ in Garage). Bei dieser Form der Anregung ist die Stimmritze etwas geöffnet; vom hindurchtretenden Luftstrom werden dabei jedoch auch die Stimmbandränder in Schwingungen versetzt.

Mit diesem Signal wird nun der sich an die Stimmbänder anschließende Luftraum angeregt. Diesen Bereich nennt man Ansatzrohr. Die Bezeichnung stammt von Blasinstrumenten, bei denen die Klangbildung nach dem gleichen Prinzip funktioniert.

In der Sprachverarbeitung verwendet man jedoch häufiger die Bezeichnung Artikulationstrakt. Sie deutet darauf hin, dass hier die Artikulation, also die eigentliche Lautformung stattfindet. Nach der Helmholtzschen Resonanztheorie stellt dieser Trakt einen Hohlraumresonator dar, der wie dieser ausgeprägte Resonanzeigenschaften aufweist. Die auftretenden Resonanzfrequenzen nennt man nach L. Hermann (1890) Formanten oder Formantfrequenzen.

Der Artikulationstrakt ist in hohem Maße veränderbar. Insbesondere gilt dies für den Mundraum. Hierbei kommt der Zunge eine Schlüsselrolle zu, wie sich im Folgenden bei der Beschreibung der Lautbildung noch zeigen wird.

Abb. 2: Schwingen der Stimmbänder

1.2 Lautbildung und Lautklassifikation

Das kleinste Element der (gesprochenen) Sprache ist der Laut, in der Sprachwissenschaft mit „Phon“ bezeichnet. Er ist vergleichbar mit dem Buchstaben in der geschriebenen Sprache.

Die Lauteinteilung kann nach verschiedenen Gesichtspunkten erfolgen, so z.B.:

• nach der Artikulationsart, • nach dem Artikulationsort, • in Momentanlaute (Verschlusslaute) und Dauerlaute, • in Konsonanten und Vokale, • in stimmhafte und stimmlose Laute.

Eine Unterteilung in stimmhafte und stimmlose Laute wird vor allem bei parametrischen Systemen, aber auch bei der Spracherkennung und Sprachsynthese verwendet. Da in der Lautlehre (Phonetik) jedoch eine Unterteilung in Konsonanten und Vokale üblich ist, wollen wir diese auch hier zugrundelegen. Damit ergibt sich dann auch zwangsläufig eine weitere Untergliederung nach Artikulationsart und -ort.

Unter ersterer soll die Art und der Umfang verstanden werden, wie die bei der Artikulation ausströmende Luft in ihrer Bewegung beeinflusst wird oder wie sie die ihr entgegengesetzten Hindernisse überwindet („Überwindungsmodus“).

Abb. 3 zeigt eine Übersicht über die Artikulationsarten. Man erkennt hieraus auch, dass Plosive und Frikative stimmhaft und stimmlos sein können.

Beim Artikulationsort interessiert nicht nur der Ort der Lautbildung, sondern es ist auch von Bedeutung, welche Organe (Lippen, Zähne, Zunge etc.) dabei beteiligt sind.

Abb. 3 : Lauteinteilung nach

Artikulationsarten

Konsonanten (Mitlaute) - siehe Abb. 4

Artikulationsarten

• Verschlusslaute (Explosivlaute) Der Luftstrom wird durch Zunge oder Gaumen gestoppt, so dass er weder durch den Mund noch durch die Nase entweichen kann (oraler und nasaler Verschluss). Nach einem Druckaufbau wird der Verschluss plötzlich freigegeben. Verschlusslaute können stimmhaft sein – dann schwingen die Stimmbänder kurz an – oder auch stimmlos. Beispiele für Verschlusslaute sind : [b], [d], [p], [t].

• Reibelaute (Frikative, Spiranten) Der Luftstrom wird im Mund- oder Rachenraum eingeengt, so dass ein rauschartiger Laut entsteht. Auch Reibelaute können stimmhaft und stimmlos sein. Beispiele für Reibelaute: [j], [f].

• Nasale Die Luft entweicht durch die Nase; die Mundhöhle ist weitgehend verschlossen. Nasale sind stets stimmhaft. Beispiele für Nasale : [m], [n].

• Seitenlaute (Laterale) Der Luftstrom entweicht rechts und /oder links an der Zunge vorbei durch den Mundraum. Laterale sind stimmhaft. Beispiel für Laterale: [l].

• Intermittierende (Vibranten) Zäpfchen oder Zunge werden durch den Luftstrom zum Schwingen gebracht. Intermittierende sind stimmhaft. Beispiele für Intermittierende sind das Zungen-r und das Zäpfchen-r.

Artikulationsorte

• bilabial Lautbildung durch Ober- und Unterlippe Beispiel: [p].

• labiodental Lautbildung durch Unterlippe und obere Schneidezähne Beispiel: [f].

• dental Lautbildung durch Zungenspitze und obere Schneidezähne Beispiel: [s]

• alveolar Lautbildung zwischen Zungenspitze und Alveolen (oberen Zahnfächern) Beispiel: [d].

• palatal Lautbildung zwischen Zunge und Palatum (harter Gaumen) Beispiel: [ch] in „ich“.

• velar Lautbildung zwischen Zunge und Velum (weicher Gaumen) Beispiel: [k].

• uvular Lautbildung durch Zunge und Uvula (Zäpfchen) Beispiel: Zäpfchen-r.

• glottal Lautbildung in der Glottis (Stimmritze) Beispiel [h].

Abb. 4: Lautformung einiger

Konsonanten

Abb. 4 zeigt die Stellung des Artikulationstrakts bei einigen Konsonanten. Bitte klicken Sie hierzu links auf einen der angegebenen Laute.

Vokale (Selbstlaute) - siehe Abb. 5

Artikulationsart

Allen Vokalen ist zunächst gemeinsam, dass eine stimmhafte Anregung (durch die Stimmbänder) erfolgt. Man unterscheidet bei Vokalen, ob sie mit offenem, halb geschlossenem oder fast geschlossenem Mund gesprochen werden. (Beispiele hierzu: [a], [a], [o], [u]). Üblich ist auch die Unterscheidung zwischen gerundeten und ungerundeten Vokalen, wobei sich „gerundet“ auf die Lippen bezieht. So werden z.B. beim [u] die Lippen gerundet, nicht aber beim [e].

Zu den Vokalen zählt man auch noch die aus zwei Vokalen bestehenden Diphtonge, bei denen die Zunge oder die Zunge zusammen mit den Lippen eine Gleitbewegung von dem einen zu dem anderen Vokal durchführt. (Beispiele für Diphtonge: [au] in „Haus“ oder [ai] in „Mai“).

Schließlich gehören zu den Vokalen noch die Nasalvokale, bei denen die Luft vorwiegend durch den Nasenraum entweicht und die Klangfärbung im Wesentlichen durch die Resonanz des Nasenraums entsteht. Nasalvokale kommen vor allem in der französischen Sprache vor.

Artikulationsort

Vokale werden in einem relativ eng begrenzten Raum des Mundes geformt. Dabei spielt die Lage der Zunge – genauer die Lage des Zungenrückens – eine entscheidende Rolle. Hierbei ist wichtig, wo und wie hoch sich der Zungenrücken befindet (Horizontal- bzw. Vertikalposition der Zunge). Liegt der höchste Punkt vorn, also in der Nähe der Zähne, so klingt der Vokal hell (Beispiel [i]); man spricht auch von Vorderzungenvokalen oder palatalen Vokalen. Liegt der Punkt weiter hinten, also mehr in der Nähe des Zäpfchens, so klingt der Vokal dunkel (Beispiel [u] ); man nennt ihn dann Hinterzungenvokal oder velaren Vokal. Die Vertikalposition betreffend, unterscheidet man zwischen einer hohen Lage (Beispiel [i]) und damit einem hohen Vokal und einer tiefen Lage (Beispiel [a]), also einem tiefen Vokal. Schließlich kann man noch die bereits erwähnte Unterteilung in gerundete und ungerundete Vokale vornehmen.

Abb. 5: Lautformung einiger Vokale

Abb. 5 zeigt die Stellung des Artikulationstrakts bei einigen Vokalen. Bitte klicken Sie hierzu links auf einen der angegebenen Laute.

1.3 Modell der menschlichen Spracherzeugung

Bei den bisherigen Betrachtungen standen die Sprachphysiologie und die Klassifikation nach phonologischen Gesichtspunkten im Vordergrund. In den folgenden Abschnitten wollen wir uns nun mit dem physikalisch-akustischen Aspekt befassen.

Vom Prinzip her kann man sich die Produktion von Sprache folgendermaßen vorstellen: Eine Gleichstromquelle (Lunge) versorgt einen Impulsgenerator (Stimmbänder) und einen Rauschgenerator (Luftstrom, der sich an Kanten und Ritzen des Rachenraumes bricht) mit elektrischer Energie (Luft); das elektrische (Schall-) Signal beider Generatoren wird gemischt und ergibt das Anregungssignal für das Übertragungssystem (den Artikulationstrakt).

In der Abb. 6 ist eine „Sprechmaschine“ dargestellt, die nach dem genannten Prinzip funktioniert. Bei diesem System wird zwecks Vereinfachung keine gemischte Anregung produziert; sie ist hier entweder rein stimmhaft oder rein stimmlos.

Sie können sich das Prinzip der Sprechmaschine sprachlich erläutern lassen, indem Sie auf den Text rechts und danach auf den Pfeil unten klicken.

Auf der Grundlage der zuvor beschriebenen Sprechmaschine funktioniert auch das nachfolgend dargestellte Modell der Spracherzeugung (Abb. 7).

Es erlaubt in einem ersten Diagramm die Wiedergabe von vorbereiteten Sprachproben – und zwar sowohl akustisch als auch in Form des Zeitsignals und des Spektrogramms.

(Hinweis: Die ebenfalls angegebene Möglichkeit, eigene Aufnahmen zu erstellen, ist in der hier vorliegenden Version leider nicht möglich. Bei Bedarf und mit etwas zusätzlichem Aufwand wäre jedoch eine Lösung möglich. Bitte kontaktieren Sie mich gegebenenfalls über meine eMail [email protected])

Abb. 6: Zum Prinzip einer Sprechmaschine

In einem zweiten Diagramm kann man sich zum Vergleich das Ergebnis ansehen und anhören, nachdem die Sprachprobe analysiert und durch die Sprechmaschine rekonstruiert worden ist.

Da bei der Sprechmaschine die Parameter für die Anregung und die Lautformung explizit zur Verfügung stehen, kann man verschiedene Manipulationen an diesen Parametern vornehmen und die dabei auftretenden hör- und sichtbaren Veränderungen registrieren

Besonders interessant sind dabei Manipulationen des Sprachgrundfrequenzverlaufs. Neben Extremfällen wie einer konstanten Grundfrequenz (völlig monotone Stimme) sowie einer rein stimmlosen Anregung (geflüsterte Sprache) lassen sich an gewünschten Stellen Betonungen erzeugen, indem man dort die Grundfrequenz erhöht. Eine ausführliche Anleitung zur Benutzung der Animation erhalten Sie, wenn Sie nach der Aktivierung der Animation bei dieser auf den „Hilfe“-Button klicken.

Hier nochmals der Hinweis: Beachten Sie bitte unbedingt die technischen Hinweise nach dem Abschnitt „Vorbemerkungen“!

2 Hörphysiologie und Hörpsychologie

2.1 HörphysiologieDer Hörvorgang vollzieht sich - ähnlich wie das Sehen - in zwei Stufen. Zuerst wird der Reiz (hier die Schalleinwirkung) aufgenommen, verstärkt, angepasst und weitergeleitet. Anschließend formen Sinneszellen den Reiz in elektrische Aktionspotentiale um, die dann schließlich im Gehirn nach einer neuronalen Verarbeitung zum Höreindruck führen.

Die nachfolgende Animation (Abb. 8) zeigt einen Schnitt durch das Ohr. Es lässt sich anatomisch und funktionsmäßig in drei Bereiche unterteilen: das Außen-, Mittel- und Innenohr. Nachfolgend sollen die drei Bereiche des Ohres näher beschrieben werden.

Abb. 7: Modell der Spracherzeugung

Außenohr

Dieses umfasst den Bereich zwischen der Ohrmuschel und dem Trommelfell und besteht im Wesentlichen aus dem Gehörgang einem Rohr von ca. 2,7 cm Länge mit nahezu schallharten Wänden. An seinem inneren Ende ist er durch das Trommelfell abgeschlossen.

Der Gehörgang wirkt als Hohlraum-Resonator; seine Resonanzfrequenz ist näherungsweise bestimmbar, wenn man den Gehörgang als einseitig abgeschlossene Röhre mit schallharten Wänden auffasst. Es ergibt sich dann eine Resonanzfrequenz von ca. 3.7 kHz.

Da das Trommelfell aber nachgiebig ist und auch die Gehörgang-Wände Schall absorbieren, weichen experimentell ermittelte Resonanzwerte etwas von den theoretischen ab; sie liegen typisch bei etwa 2 bis 3 kHz. Außerdem ist die Resonanz nicht scharf ausgeprägt, sondern erstreckt sich über einen Bereich von etwa 2 bis 6 kHz.

In diesem Bereich ist der Gehörgang weitgehend reflexionsfrei abgeschlossen, d.h. ein großer Teil der Schallenergie wirkt auf das Trommelfell. Dementsprechend ist die Hörleistung in diesem Frequenzbereich am größten.

Mittelohr

Das Mittelohr wird durch einen kleinen luftgefüllten Raum, die sogenannte Paukenhöhle gebildet. Damit vor und hinter dem Trom melfell der gleiche Luftdruck herrscht, besteht eine Verbindung zwischen dem Mittelohr und dem Nasen-Rachen-Raum, die sogenannte „Eustachische Röhre“. Sie ist normalerweise mit einer Membran ver schlossen, die sich jedoch beim Schlucken öffnet, wodurch dann ein Druckausgleich hergestellt werden kann.

Im Mittelohr befinden sich die Gehörknöchelchen (Ossikula) Amboss, Hammer und Steigbügel. Der Hammer ist am Trommelfell befestigt und überträgt die Trommelfell-Schwingungen auf den Amboss, der sie an den Steigbügel weitergibt. Der Steigbügel schließlich leitet die Schallschwingungen durch das ovale Fenster in das flüssigkeitsgefüllte Innere der Schnecke.

Die Gehörknöchelchen können Sie sich genauer ansehen, wenn Sie in obigem Bild des Ohres auf den mittleren Teil klicken.

Abb. 8: Animierte Darstellung des Ohres

Die Gehörknöchelchen dienen in erster Linie der Anpassung der Luftschall-Impedanz an die sehr viel höhere Flüssigkeitsschall-Impedanz in der Schnecke. Ohne diese Anpassung würde der weitaus größte Anteil der Schallenergie (über 90%) reflektiert werden und damit für den Hörvorgang verloren gehen.

Die Impedanztransformation wird zum einen durch eine sehr günstige Auslegung des Masse-Feder-Systems von Trommelfell und Gehörknöchelchen und zum anderen durch eine Transformation des Schalldruckes erreicht. Letztere wiederum kommt durch die Hebelwirkung der Knöchelchen zustande, welche die Schnelle herab- und den Druck herauftransformiert. Außerdem findet noch eine erhebliche Druckverstärkung dadurch statt, dass die wirksame Querschnittsfläche des Trommelfelles etwa 17-mal so groß ist wie diejenige des ovalen Fensters. Insgesamt ergibt sich eine Schalldruckverstärkung um einen Faktor von etwa 22.

Die Impedanzanpassung ist am besten im Bereich von 1 bis 3 kHz; aber sie ist auch hier nicht optimal, da noch immer 40% der Schallenergie reflektiert werden. Bei tieferen und höheren Frequenzen ist die Fehlanpassung beträchtlich größer, was die rasche Dämpfungszunahme bei der Hörschwellenkurve erklärt.

Neben der Impedanzanpassung und der Verstärkungswirkung haben die Gehörknöchelchen noch die Aufgabe einer Schutzfunktion. Bei zu lautem Schall wird der Hebelmechanismus durch Muskeln blockiert. Außerdem wird – zumindest bei tiefen Frequenzen – ein Teil der Schallenergie im Gelenk zwischen Hammer und Amboss durch Reibung vernichtet. Schließlich ändert sich bei großer Schallintensität auch die Bewegungsrichtung des Steigbügels, so dass die Schwingungsamplituden am ovalen Fenster kleiner werden. Der Schutzmechanismus bewirkt eine Dämpfung von etwa 20 dB; möglicherweise ist die Dämpfung kurzfristig auch höher. Wichtig ist jedoch, dass der Schutz-mechanismus eine gewisse Reaktionszeit benötigt (etwa 60 bis 120 ms) und daher bei plötzlich auftretenden hohen Schalldrucken (Explosionen etc.) nicht wirksam werden kann.

Innenohr

Das Innenohr liegt im Knochen des Felsenbeins und enthält die Schnecke (Cochlea), in der die Umsetzung von Schalldruckschwankun gen in Reize des Gehörnervs stattfindet. In einem weiteren Teil des Innenohres ist das Gleichgewichtsorgan untergebracht, das hier jedoch nicht näher betrachtet werden soll.

Die Schnecke hat eine Länge von ca. 32 mm und ist in 2 1/2 Windungen aufgewickelt. Ein Schnitt quer zur Schneckenwindung ist in der Animation vergrößert dargestellt. Man erkennt eine Unterteilung in drei Kanäle: die Vorhoftreppe (Scala vestibuli) die Paukentreppe (scala tympani) und einen kleinen Kanal in der Mitte, die Scala media. Vorhof- und Paukentreppe sind an der Schneckenspitze durch eine kleine Öffnung, das Helicotrema miteinander verbunden. Am Ende der Paukentreppe, unterhalb vom ovalen Fenster, befindet sich noch eine durch eine feine Membran verschlossene Öffnung, das runde Fenster.

Die Trennwand zwischen der Paukentreppe und der Scala media bildet die Basilarmembran. Sie ist in der Nähe des ovalen Fensters schmal und straff gespannt; zur Schneckenspitze hin verbreitert sie sich und wird schlaffer. Eine weitere, außerordentlich dünne Wand, die Reissnersche Membran, liegt zwischen der Scala media und der Vorhoftreppe. Diese Membran ist jedoch akustisch unwirksam.

Auf der Basilarmembran befindet sich das Cortische Organ, das eigentliche Hörorgan. Es enthält, in Stützzellen eingebettet, die Haarzellen, die an ihrer freien Oberfläche feine Härchen (Stereociliten) tragen. Man unterscheidet die äußeren Haarzellen, die in drei (teilweise auch vier) Reihen angeordnet sind, und die in einer Reihe vorhandenen inneren Haarzellen. Die Anzahl der ersteren schätzt man auf etwa 12.000, die der letzteren auf etwa 3.500.

Die Haarzellen stehen in Kontakt mit den Nervenfasern (enthalten aber selbst keine Nervenzellen!) und diese wiederum sind mit dem Gehörnerv verbunden, der im Zentral-Nervensystem endet.

Die Versorgung mit Nervenfasern erfolgt getrennt für die inneren und die äußeren Haarzellen, wobei wahrscheinlich jeder inneren Haarzelle mindestens eine Nervenfaser zugeordnet ist. Dagegen werden mehrere äußere Haarzellen durch eine Nervenfaser versorgt. Hieraus lässt sich schließen, dass die inneren und die äußeren Haarzellen verschiedene Aufgaben haben. Sehr vereinfacht gesprochen sind die inneren Haarzellen für den eigentlichen Hörvorgang zuständig, während die äußeren Haarzellen einen sehr großen Dynamikbereich der Schallintensität erfassen und zugleich auch die Frequenz-Selektivität erhöhen.

Bemerkenswert ist noch, dass es bei den inneren und vor allem auch bei den äußeren Haarzellen sowohl Nervenfasern gibt, die den Reiz zum zentralen Nervensystem leiten (afferente Fasern), als auch solche, die Reize in umgekehrter Richtung transportieren (efferente Fasern). Zentrales Nervensystem und Corti-Organ bilden somit ein rückgekoppeltes System.

Über dem Corti-Organ, auf der Spitze der Haarzellen aufliegend, befindet sich die Deckmembran (Tectorialmembran). Sie ist in der Mitte des Schneckenquerschnittes befestigt. Wird die Basilarmembran durch die Flüssigkeitswellen in Schwingungen versetzt, so entsteht an Stellen der Membrandurchbiegung eine Scherbewegung zwischen der Tektorialmembran und den Haarzellen. Hierdurch werden die zugehörigen Nervenfasern gereizt, der Reiz wird über den Hörnerv zum Gehirn geleitet und dort als Höreindruck wahrgenommen.

2.2 Hörpsychologie

Das Gehör kann Schallwellen im Frequenzbereich zwischen etwa 20 Hz und 16 kHz wahrnehmen. Man nennt Schall in diesem Bereich daher Hörschall. Schall unterhalb von 20 Hz bezeichnet man als Infraschall und Schall oberhalb von 16 kHz als Ultraschall.

Die Werte des angegebenen Hörschallbereiches sind allerdings äußerste Grenzwerte. Im Bereich von 20 Hz wird der Schall bereits überwiegend als Körperschall wahrgenommen; ein Ton von 16 kHz andererseits ist nur bei hoher Amplitude und auch dann nur in jugendlichem Alter hörbar. Bei älteren Menschen ist bereits ab 5 kHz ein deutlich feststellbarer Hörverlust von ca. 15 dB, oberhalb von 10 kHz sogar von 20 dB, gegenüber Jugendlichen feststellbar. Dies ist jedoch nicht allzu störend, da die wichtigsten Schallereignisse deutlich unterhalb von 10 kHz liegen; insbesondere gilt das für Sprache, die oberhalb von etwa 6 bis 8 kHz kaum noch nennenswerte spektrale Energieanteile aufweist.

Trägt man denjenigen Schalldruckpegel über der Frequenz auf, der gerade hörbar ist, so erhält man die sogenannte Hörschwelle. In Abb. 9 ist das die unterste Kurve.

Die Hörschwelle ist offensichtlich in starkem Maße frequenzabhängig. Im Bereich zwischen 2 und 5 kHz ist die Hörempfindlichkeit am größten; hier genügen die niedrigsten Schalldrucke für eine Hörempfindung. Unterhalb und oberhalb dieses Bereiches nimmt die Hörempfindlichkeit rasch ab.

Die oberste Kurve stellt die Schmerzschwelle dar. Bei dieser sind die Schalldrucke so groß, dass bereits eine Schmerzempfindung und bei längerer Einwirkung eine dauernde Hörschädigung eintritt. Eine Hörschädigung kann allerdings auch schon bei wesentlich niedrigeren Schalldrucken auftreten, insbesondere dann, wenn ihnen das Ohr längere Zeit ausgesetzt ist.

Die im oberen Bild der Hörfläche eingezeichneten Kurven bezeichnet man als Isophonen; sie stellen Kurven gleichen Lautstärkepegels dar. Gleicher Lautstärkepegel heißt hierbei, dass unabhängig von der Frequenz jeder Ton im Verlauf einer Kurve als gleich laut empfunden wird.

Abb. 9: Hörfläche

Um die Frequenzabhängigkeit des Lautstärkeempfindens zu demonstrieren, wird zunächst eine Tonfolge dargeboten, bei der die Pegel jeweils so gewählt worden sind, dass die Töne als gleichlaut empfunden werden.

Klicken Sie hierzu bei der nachfolgenden Abbildung 10 auf die linke Tonfolge. Zum Vergleich können Sie die gleiche Tonfolge in einer zweiten Version hören (rechte Tonfolge), bei der die Pegel bei jedem Ton den gleichen Wert haben.

Damit sich Schalldruck- und Lautstärkepegel besser auseinanderhalten lassen, bezeichnet man letzteren mit der Pseudoeinheit „phon“. Ein Ton mit dem Lautstärkepegel 50 phon wird also als genauso laut empfunden wie ein 1 kHz-Ton mit einem Schalldruckpegel von 50 dB. Natürlich kann man auch komplexere Schallereignisse wie Sprache, Musik oder Geräusche mit dem 1 kHz-Ton vergleichen.

Abb. 10: Zur Demonstration des

frequenzabhängigen Lautstärkeempfindens

links: Pegel angepasst auf gleiches Lautstärkeempfinden

rechts: Pegel konstant gehalten

2.3 Spektrale und zeitliche Verdeckung

Wie bereits erläutert, lässt sich die Hörschwelle (genauer gesagt die absolute Hörschwelle) ermitteln, indem ein in der Frequenz veränderlicher Testton bei absolut ruhiger Umgebung gerade hörbar ist.

Nun sind wir in der realen Umwelt stets von Geräuschen (Straßenlärm, Raumgeräuschen usw.) umgeben. Wir bezeichnen diese Geräusche als Störschall. Dieser Störschall beeinträchtigt den Nutzschall (Sprache, Musik, Töne, sonstige akustische Nutzinformation) in der Weise, dass der Nutzschall leiser erscheint als er tatsächlich ist oder dass er sogar vom Störschall vollkommen verdeckt wird. Im ersten Fall spricht man von Drosselung, im zweiten Fall von Verdeckung.

Um den Effekt der Verdeckung zu erfassen, geht man so vor, dass man dem Ohr einen definierten Störschall (Ton, Klang, Rauschen) und außerdem einen Ton veränderlicher Frequenz und veränderlichen Pegels zuführt.

In der nachfolgenden Animation (Abb. 11) wird zunächst eine Tonfolge ohne Rauschen und dann mit Rauschen dargeboten. Dabei zeigen sich deutliche Drosselungs- bzw. Verdeckungseffekte.

Eine weitere Form der Verdeckung ist die zeitliche Verdeckung. Wird ein lautes Schallereignis schlagartig im Pegel gesenkt, so ist das Schallereignis erst nach einer gewissen Zeit wieder hörbar. Das nachfolgende Hörbeispiel (Abb. 12) demonstriert diese Art der Verdeckung.

3. Schlussbemerkung

Liebe Leserinnen und Leser, ich hoffe, dass Sie die Animationen problemlos durchführen konnten und dass sie Ihr Interesse gefunden haben. Kritik und Anregungen sind jederzeit sehr willkommen.

Klaus Fellbaum [email protected]

Abb. 11 (links): Zur Demonstration der spektralen

Drosselung bzw. Verdeckung

Abb. 12 (rechts): Zeitliche Verdeckung

Documents

„SPRACHVERARBEITUNG UND SPRACHÜBERTRAGUNG“extras.springer.com/2012/978-3-642-31502-2... · an der TU Berlin entwickelt wurde. Im Rahmen des eL-IT Teilprojektes „Elektronische