Eigenschaften des Gehörs Das akustische Signal besteht aus Schallwellen. Wellen haben die...

Preview:

Citation preview

Eigenschaften des Gehörs

Das akustische Signal besteht aus Schallwellen. Wellen haben die Eigenschaften Frequenz (Anzahl der Schwingungen/sec )und Amplitude (Stärke der Schwingung)

Was können menschliche Hörer unterscheiden?

Frequenzunterschiede: 20 Hz (1 Hz = 1 Schwingung /sec)Amplitudenunterschiede: 0.5 dB (Dezibel; 1 dB = 20 log Px/P0)

(Flüstern = 20dB, Kinopublikum 45dB, Kaufhaus 60dB)

Theoretisch mögliche Unterscheidungen:250 Amplituden (0-125 dB)1000 Frequenzen (10 – 20000 Hz)250000 Kombinationen

Tatsächlich benutzen Sprachen aber nur höchstens 80 Phoneme.

Eigenschaften des Gehörs

Was können menschliche Hörer identifizieren (Pollack, 1952, 1953, 1954)?

5 verschiedene Frequenzkategorien5-7 verschiedene Amplitudenkategorien8-9 Kombinationen aus Frequenz und Amplitude

6 verschiedene Dimensionen zusammen erlauben etwa 32 identifizierbare Kategorien.Wir können also nicht alle unterscheidbaren akustischen Signale identifizieren, sondern nur eine viel geringere Anzahl von Kategorien.

> Trade-off zwischen Menge der Information und Sicherheit der Erkennung.

Wie viel Information kann damit übertragen werden?

Information

Informationsgehalt eines bestimmten Ereignisses i , das mit der Wahrscheinlichkeit pi auftritt:Hi = log2 1/pi

d.h. je wahrscheinlicher, desto weniger Information.

Informationsübertragung ist nie perfekt. Störungen nennt man Rauschen.

Signal-Rausch-Verhältnis gibt an, wie deutlich das Signal (also etwa die Buchstaben oder Phoneme) im Verhältnis zum Rauschen wahrzunehmen ist.Je weniger Informationen man überträgt, desto weniger deutlich muss das Signal sein.

Phonemerkennung

Kategorielle Wahrnehmung

Phoneme werden kategoriell erkannt (categorical perception, Liberman, 1963)

IdentifikationWenn man eine akustische Eigenschaft (z.B. VOT) in gleich großen Schritten variiert, wechselt die Wahrnehmung nicht kontinuierlich, sondern in Sprüngen zwischen Kategorien.Stimuli 1 2 3 4 5 6 7 8 9 10 11 11 12Wahrnehmung b / d / g

DiskriminationStimuluspaare, die einen akustisch identischen Unterschied aufweisen, können an Kategoriengrenzen besser unterschieden werden als innerhalb der Kategorien. (z.B. Stimuli 4 und 5 besser als 6 und 7).

Kategoriengrenzen sind sprachspezifisch.

Das bedeutet, dass Kinder entweder am Anfang einen akustischen Unterschied in einem Kontinuum überall gleich gut unterscheiden können und dies später unter

dem Einfluss der Muttersprache verlernen (“acquired similarity”)oder

am Anfang einen akustischen Unterschied in einem Kontinuum nicht (gut) wahrnehmen können und dies später unter dem

Einfluss der Muttersprache an den Kategoriengrenzen lernen (“acquired distinctiveness”)

Kategorielle Wahrnehmung

Durch Veränderung desÜbergangs zumVokalformanten wird dieKonsonantenqualitätkontinuierlich verändert.

Im Englischen gibt es indiesem Kontinuum eineGrenze zwischen /b/ und /d/.Im Hindi gibt es zweiGrenzen, weil es zweiverschiedene /d/-Laute gibt.

Englische 6-8 monatige Säuglinge unterscheiden Lautean einer Kategoriegrenze des Hindi besser als 11-13monatige Säuglinge oder Erwachsene.

Konsonanten, in geringerem Maße auchVokale, werden also als Kategorien wie /p/, /d/, /m/ usw. wahrgenommen, innerhalb derer feine akustische Unterschiede nicht gut wahrgenommen werden.Das legt nahe, dass der akustische Input in eine abstraktere phonologische Repräsentation umgewandelt wird, auf Grundlage derer dann passende Lexikoneinträge gesucht werden. Bei dieser Repräsentation wären dann keine Informationen über den genauen Klang eines gehörten /p/ mehr vorhanden.Die meisten Spracherkennungsmodelle nehmen das tatsächlich an. Es gibt aber auch Theorien, die annehmen, das bei der Worterkennung noch viel mehr akustische Details genutzt werden (episodische Theorien der Worterkennung).

Worterkennung und prälexikalische Repräsentation  Literatur: Frauenfelder & Floccia (1998) The recognition of spoken word. In: Friederici, A. (ed.) Language Comprehension: A biological perspective. Berlin, Heidelberg, New York. Springer. pp. 1-40  Grundprobleme der Worterkennung:a) Es gibt einige zehntausend teilweise sehr ähnliche Lexikoneinträge.b) Lexikalische Einbettung (Haus: Hau, Au, aus)c) Variabilität der konkreten Realisierung. Viele verschiedene ‚Tokens‘ einer Wortform müssen auf einen ‚Type‘, den Lexikoneintrag abgebildet werden. (abhängig von Sprecher, Sprechgeschwindigkeit, sprachlicher Umgebung: vgl. ‚du‘ in ‚du kannst‘ vs. ‚kannst du‘, ‚Haus und Hof‘ bei verschiedenen Sprechgeschwindigkeiten)d) Kontinuität der gesprochenen Sprache

Lexikalische Alignment-Mechanismen Die lexikalische Suche hängt sehr davon ab, ob und wenn ja welche Einheiten im Input als mögliche Wortanfänge angenommen werden, d.h. welche Teile der Inputrepräsentation und der lexikalischen Repräsentationen miteinander verglichen werden. (Sind beim Input "Haus" nur die Lexikoneinträge 'Haus' und 'Hau' mögliche Kandidaten oder auch 'aus' und 'Au'?) In Analogie zu einem Textformat nennt man das 'Ausrichtung' oder 'Alignment'.

Input: (Ich gehe ins) Haus.Lexikoneinträge: Hau

Haus Au aus

  

  

In Theorien der Worterkennung finden sich folgende Alignment-Mechanismen:

a)Vollständiges Alignment

b) Positionelles Alignment (Wortanfang wird als erkannt vorausgesetzt)

c) ‚Landmark‘-Alignment (Hörer nutzen Hinweise, die Wortanfänge signalisieren.)

d)Metrische Segmentierung (Cutler & Norris, 1988) Spezialfall des Landmark-Alignment: Wortanfänge werden z.B.

im Englischen vor betonten Silben angenommen.

Prälexikalische InputrepräsentationDie prälexikalische Inputrepräsentation vermittelt zwischen dem Sprachsignal und den Lexikoneinträgen. Die Art und Weise wie der Input vor dem Lexikonzugriff kodiert ist, entscheidet darüber, wie die o.g. Probleme gelöst werden können.Mögliche ‚Units‘ sind akustische Repräsentationen, phonologische Merkmale, Phoneme, Moren, Silben, andere prosodische Einheiten Was muß eine Unit leisten? (Cutler & Norris 1985)- erkennbar sein- jede mögliche Äußerung kodieren (transkribieren) können- auf lexikalische Einheiten abbildbar sein Kosten-Nutzen-RelationenUnmittelbarkeit des Lexikonzugriffs: je kleiner die Unit desto schneller. Silben teilweise schon zu lang ( vgl. ‚Herbst‘)Zuverlässigkeit: je länger desto zuverlässiger. Man verhört sich eher bei einem Phonem als bei einer Silbe.Aufwand bei der Kodierung: einige 10 Phoneme vs. einige tausend Silben

Miller & Volaitis, 1989

Palmeri, Goldinger, & Pisoni, 1993

Experimentelle Befunde zur Inputrepräsentation

Miller & Volaitis, 1989 Technik: Phoneme categorisationWird die Kategorisierung aufgrund von VOT durch die Sprechgeschwindigkeit beeinflusst?Ja. Bei langsamer Sprache werden auch /p/s mit längerer VOT als normal als /p/ kategorisert. > Phonemkategorisierung passt sich akustischen Veränderungen an. Unit = Phonem

Palmeri, Goldinger, & Pisoni, 1993 Technik: Continuous recognition memory taskVPs erkennen Wörter, die vorher in einer Liste präsentiert wurden, besser wieder, wenn sie vom gleichen Sprecher stammen.Akustische Besonderheiten wie eine bestimmte Stimme werden abgespeichert und bei der Worterkennung benutzt (allerdings ist nicht klar, wie lange der Effekt hält) Worterkennung benutzt akustische Repräsentation („Episodic trace“)

 

Experimentelle Befunde zur Inputrepräsentation

Mehler et al. 1981Technik: ‚Fragment detection‘ Ist die Silbe /ba/ oder /bal/ in den Wörtern /ba.lance/ bzw. /bal.con/Vps reagieren schneller bei Silbenübereinstimmung > Unit = SilbeErgebnis erwies sich als sprach- und sprechgeschwindigkeitsabhängig. Möglicherweise mißt die Technik postlexikalische Prozesse. Radeau, Morais & Segui 1995Technik: ‚Phonological Priming‘Priming–Effekt wenn Prime und Target in den letzten beiden von 3 Phonemen übereinstimmten. Effekt war nicht abhängig von lexikalischer Frequenz. Unit = Rime 

Kolinsky, Morais & Cluytens 1995Technik: ‚Speech Migration‘Den Vps werden zwei verschiedene Kunstwörter gleichzeitig rechts und links über Kopfhörer dargeboten (dichotische Darbietung). Sie müssen angeben, was sie gehört haben. Es werden dabei häufig existierende Wörter gehört, die aus einer Vermischung der dargebotenen Kunstwörter entstehen.dargeboten: ‚biton‘ und ‚cojou‘gehört: ‚coton‘ (Baumwolle) oder ‚bijou‘ (Schmuckstück)Die ‚Wanderung‘ (migration) von Silben ist dabei häufiger als die anderer Einheiten.> spricht für Silben als UnitsWiederholungsexperimente für Japanisch (Silben und Moren) und Portugiesisch (initiales Phonem) Units sprachspezifisch

Insgesamt: verschiedene Units einschließlich akustischer Information > Worterkennung nutzt alle verfügbaren Informationen, aber mit sprachspezifischer Gewichtung 

Kohortenmodell I Inputrepräsentation: PhonemeAlignment: Wort-OnsetLaterale Inhibition: neinWorterkennung am ‚uniqueness point‘, definiert durch lexikalische Umgebung Input aktivierte Kohorte Input Kohorte Input Kohorte/kvi/ /kvit/ /kvitu/

quick quitt QuittungQuirl QuitteQuirlig QuittungQuirlen quittierenquittquittierenQuittungQuitteQuitteQuiz

Problem: wortinitiale Phonemabweichung (‚Figarette‘)

Experimente Marslen-Wilson & Zwitserlood, 1989technique: cross-modal semantic primingneither mat nor dat (pseudoword) prime dog Connine, Blasko & Titone, 1993technique: cross-modal semantic priminggat (small phonological distance between the /g/ and the /k/ in cat) DOES prime dogto some extent > activation of initially slightly different competitors Zwitserlood 1989technique: cross-modal semantic primingstimuli: captain - captive the fragment /capt/ primes both ship and guardthe fragment /capti/ no longer primes ship > competitors immediately drop out after non-initial mismatch> evidence for bottom-up inhibition 

Shillcock 1990technique: cross-modal semantic primingtrombone primes rib but: Gow & Gordon 1995tulips DID NOT prime kiss (associatively related to lips)  Norris et al., 1995technique: word spotting (does the stimulus contain a word?)stimulus: maskuk (contains mask) Subjects were slower to detect mask if there was a large set of words beginning with /sk/). > non-initial competitors are activated, size of set of non-initial competitors matters

Kohortenmodell II Inputrepräsentation: distinktive MerkmaleAlignment: Wort-Onset Weitere Unterschiede zu Kohortenmodell IKohorten sind größer, da gewisses Maß an Nichtübereinstimmung toleriert wird.Kohortenmitglieder variieren im Aktivierungsniveau, abhängig von Frequenz und Qualität der ÜbereinstimmungErkennungszeitpunkt hängt vom Aktivierungsgrad der Mitbewerber ab 

 

Recommended