Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Sprachperzeption
Einleitendes
Bei der Perzeption von gesprochener Sprache geht es darum, wie wir die Laute der Sprache
identifizieren und wie wir sie zu den entsprechenden Wörtern verbinden, wobei wir bei der
Perzeption nicht unbedingt immer schrittweise vorgehen, wie dies die Linearität der Abfolge
der Laute es uns erscheinen lässt. So können wir, wenn wir z.B. Teile eines Wortes nicht
gehört haben, die fehlenden Laute ergänzen, d.h. wir verwenden unser Wissen über die
lautliche Form eines Wortes, um es zu verstehen. Dieses Thema des Effekts des Wissens auf
der Wortebene ist nicht nur ein wichtiges sondern durchaus auch kontroversielles.
Natürlich haben die Erkenntnisse über die Perzeption von gesprochener Sprache
entsprechende Konsequenzen für den Sprachunterricht, das Erlernen der Lese- und
Schreibfähigkeiten und nicht zuletzt auch für die Therapie entsprechender Störungen.
Erkennen gesprochener Sprache
Wie sehen nun die Repräsentationen aus, die wir für den Zugang zum mentalen Lexikon
verwenden? Wir können zwischen dem prälexikalischen Code, der die lautliche
Repräsentation darstellt und der vor der Identifizierung des Wortes verwendet wird, und dem
postlexikalischen Code, der die Information darstellt, die wir nach dem lexikalischen Zugang
besitzen, unterscheiden. Somit ist die Spezifizierung des prälexikalischen Codes ganz wichtig,
um das Erkennen von gesprochener Sprache zu verstehen.
1
Erkennen gesprochener Sprache
Die Perzeption von Gesprochenem ist insofern schwieriger als das Erkennen von
Geschriebenem als die Laute nur kurz präsent sind und außerdem die Laute bei der
Produktion in einander übergehen, was als Koartikulation bezeichnet wird (z.B. sind die
beiden anlautenden [k] in /kind/ und /kunst/ verschieden und zwar aufgrund der
nachfolgenden Vokale). Außerdem ist es nicht so einfach wie im Geschriebenem einzelne
Wörter im Sprechfluss zu segmentieren, dies zeigt sich sofort, wenn wir eine uns unbekannte
Sprache hören. Trotzdem haben wir im allgemeinen keine Probleme beim Erkennen von
Gesprochenem – sofern es sich um eine uns bekannte Sprache handelt. So hat sich gezeigt1,
dass wenn Abfolgen von Geräuschen gehört werden, z.B. ein Summen, ein Zischen, ein Ton
und ein Vokal, dass die Reihenfolge nur dann unterschieden werden kann, wenn
Abfolgegeschwindigkeit langsamer als 1,5 Geräusche pro Sekunde ist. Allerdings können wir
Gesprochenes mit einer Rate von 20 Phonemen/sek und manchmal auch mehr perzipieren. Im
Kontext können wir gesprochene Wörter 200ms nach ihrem Beginn identifizieren2. So hat
sich auch gezeigt3, dass Wörter in einem sinnvollen Kontext besser gegenüber
Hintergrundgeräuschen erkannt werden als Wörter ohne Kontext. Außerdem brauchen wir
fast zweimal so lange, um ein isoliertes Wort im Vergleich zu seinem Auftreten in einem Satz
zu erkennen4.
Wie wird nun Gesprochenes segmentiert?1 Warren, R.M./Obusek, C.J./Farmer, R.M./Warren, R.P., 1969. Auditory sequence: Confusion of patterns other than speech or music. Science 164: 586-5872 Marslen-Wilson, W.D., 1984. Spoken word recognition: A tutorial review. In H. Bouma/D.G. Bouwhis (eds.), Attention and performance X: Control of language processes. Hove, UK: 125-1503 Bruce, D.J., 1958. The effects of listeners’ anticipations in the intelligibility of heard speech. Language and Speech 1: 79-974 Lieberman, P., 1963. Some effects of semantic and grammatical context on the production and perception of speech. Language and Speech 6: 172-187
2
Wie wir bereits gehört haben, variieren die akustischen Eigenschaften der Phoneme mit dem
Kontext, in dem sie auftreten. So sind z.B. die „b“-Laute in „Ball“, „Bub“ und „Ebbe“ alle
akustisch verschieden, trotzdem sind wir uns einig, dass es jeweils um die Realisierung des
Phonems /b/ handelt. Wenn wir uns nun die Beziehung zwischen dem akustischen Signal und
dem dadurch repräsentierten Laut ansehen, so zeigt sich, dass diese Beziehung durchaus sehr
komplex ist. Diese Komplexität ergibt sich aufgrund von zwei Aspekten, die in jeder Theorie
der Lautperzeption beachtet werden müssen: das Problem der Invarianz und das Problem der
Segmentierung5. Das Problem der Invarianz bedeutet nicht anderes als dass dasselbe Phonem
je nach Kontext anders sein kann. Das Problem der Segmentierung bedeutet, dass die Laute in
einander übergehen und somit nicht einfach getrennt werden können.
Wir haben bereits das Phänomen der Koartikulation kenngelernt, d.h. dass bei der Produktion
eines Lautes unser Produktionsapparat bereits die Position für den nächsten Laut
einzunehmen beginnt. Die Koartikulation hat für den Sprecher den Vorteil, dass die
Produktion schneller und flüssiger ablaufen kann als wenn jedes Phonem einzeln und deutlich
artikuliert werden müsste. Für den Hörer hat die Koartikulation den Vorteil, dass die
Information über die Identität von phonetischen Segmenten über mehrere akustische
Segmente verteilt sein kann. Des weiteren versorgt uns diese Verteilung der Information auch
mit entsprechenden Informationen über die umgebenden Laute – ein Phänomen, das als
parallele Übertragung bezeichnet wird. So sind die b-Laute in „Ball“, „Bus“ und „Bild“ alle
akustisch leicht verschieden, was uns entsprechende Informationen über die folgenden Laute
bietet.
Das Problem der Segmentierung bedeutet, dass es nicht einfach ist, die einzelnen Laute in
einer Äußerung zu segmentieren, da sie ja in einander übergehen. Eine gewisse Ausnahme
bilden hier die Verschlusskonsonanten und wenn Pausen auftreten. Das „klassische“ Beispiel
aus dem Englischen : „I scream“ vs. „ice cream“ und aus dem Deutschen “schi(e)fliegen”.
Normal gesprochen klingen beide Ketten gleich. Wenn man sich die akustischen Segmente im
Spektrogramm ansieht, so lassen sie sich auch nicht so einfach auf den jeweiligen
phonetischen Segmenten abbilden.
5 Miller, J.L./Jusczyk, P.W., 1989. Seeking the neurobiological bases of speech perception. Cognition 33: 111-137
3
Eine Beschränkung beim Segmentieren von Gesprochenem besteht darin, dass wir das
Gehörte so zu segmentieren versuchen, dass jedes Segment ein mögliches Wort ist –
„possible-word constraint“. Gesprochenes wird nicht gerne so segmentiert, dass Teile von
Silben allein stehen bleiben und nicht an Wörter angehängt werden6. Jede Segmentierung, die
unmögliche Wörter, z.B. einen einzelnen Konsonanten, ergibt, wird zurückgewiesen: So wird
die Segmentierung in „fill a green bucket“ einer Segmentierung wie „filigree n bucket“
vorgezogen.
Kategoriale Perzeption
Zwar findet sich, wie wir gesehen haben, eine Menge an Variation im akustischen
„Aussehen“ der Phonem, trotzdem klassifizieren wird die einzelne Laute fast immer als das
eine oder andere Phonem. Dieses Phänomen wird als kategoriale Perzeption bezeichnet. Als
erste wiesen dies Liberman et al.7 nach: Sie erzeugten ein Kontinuum von synthetischen
Silben, bei denen sich die anlautenden Konsonanten im Artikulationsort unterschieden.
Obwohl es sich um ein Kontinuum handelte, ordneten die Versuchspersonen die Silben in drei
deutlich unterschiedenen Kategorien, nämlich /b/, /d/ und /g/.
Ein weiteres Beispiel für die kategoriale Perzeption ist die sog. „voice onset time“ (VOT):
Dabei handelt es sich um den Einsatz des Schwingens der Stimmlippen nach der Lösung des
Verschlusses von Plosiven, wobei dies bei stimmhaften Plosiven früher erfolgt als bei
stimmlosen. Somit unterscheiden sich z.B. /d/ und /t/ oder /b/ und /p/ in eben diesen
minimalen zeitlichen Verzögerungen. Nun kann man Silben synthetisieren, bei denen diese
zeitlichen Verzögerungen im Millisekundenbereich verändert wurden. Diese Veränderungen
erfolgten im Experiment8 in Schritten von 0.01 sek, woraus sich in dem gewählten
Zeitintervall 31 Silben ergaben, die sich nur in der VOT unterschieden. Diese Silben wurden
nun in zufälliger Abfolge den Versuchspersonen zur Identifizierung vorgespielt. Die
Ergebnisse (s. Abb. 1) zeigten, dass die Vpn. fast über das gesamte Kontinuum zu 100% in
ihrer Entscheidung ([b] oder [b]) übereinstimmten, nur an der Grenze gab es einige
Unterschiede. (Folie: /b/-/p/)
6 Norris, D./McQueen, J.M./Cutler, A./Butterfield, S., 1997. The possible-word constraint in the segmentation of continous speech. Cognitive Psychology 34: 191-2437 Liberman, A.M./Harris, K.S./Hoffman, H.S./Griffith, B.C., 1957. The discrimination of speech sounds within and across phoneme boundaries. J. of Experimental Psychology 53: 358-3688 Lisker, L./Abramson, A., 1970. The voicing dimension: Some experiments in comparative phonetics. Proceedings of the 6th International Congress of Phonetic Sciences, Prague 1967. Prague: 563-567
4
Es besteht auch die Möglichkeit diese Merkmalsdetektoren zu „ermüden“, was als selektive
Adaption bezeichnet wird: Wenn z.B. die Silbe „ba“ wiederholt dargeboten wird, dann lässt
die Sensibilität der Versuchspersonen für das Merkmal „stimmhaft“ bei /b/ nach und bei
einem direkt folgenden Test verschiebt sich die Grenze zwischen b/ und /p/ im Kontinuum in
Richtung /p/9. Obwohl also die Sprachlaute physikalisch kontinuierlich sein können, ist ihre
Perzeption kategorial.
Wichtig ist auch, dass die Grenzen nicht fix sind, sondern sensibel auf kontextuelle Faktoren
wie z.B. Sprechgeschwindigkeit reagieren können: So kann ein Plosiv mit einer absolut
gesehen kurzen VOT nicht als /b/, sondern als /p/ perzipiert werden, wenn das umgebende
Sprechen schnell genug ist10.
Aufgrund der o.a. Untersuchungen zur kategorialen Perzeption wurde zuerst angenommen,
dass die Hörer nicht in der Lage seien zwischen den leicht verschiedenen Exemplaren einer
Phonemkategorie zu unterscheiden. Das scheint allerdings nicht der Fall zu sein, denn es hat
sich gezeigt11, dass die Versuchspersonen schneller erkannten, dass zwei /ba/-Silben dieselben
waren, wenn die /b/-Laute identisch waren als wenn sie sich in ihren VOTs leicht
unterschieden. D.h. es besteht eine gewisse Sensibilität für die Unterschiede innerhalb von
Kategorien, was dazu geführt hat, dass die Position der kategorialen Perzeption von
Sprachlauten etwas in Frage gestellt wurde. Möglicherweise lassen sich viele bei der
Perzeption von gesprochener Sprache beobachteten Phänomene besser im Sinne einer
kontinuierlichen denn einer kategorialen Perzeption beschreiben. Obwohl unsere Erfahrung
dahin geht, dass die Identifikation von Sprachlauten kategorial erfolgt, ist die
Nachweisbarkeit, dass die frühe sensorische Verarbeitung tatsächlich kategorial ist, doch
etwas schwächer12, indem argumentiert wird, dass die schlechte Diskrimination innerhalb der
Kategorien nicht aufgrund der frühen Verarbeitung erfolgt, sondern aus dem Bias der
Versuchspersonen entsteht, zu sagen, dass Elemente derselben Kategorie identisch sind.
Trotzdem ist der Ansatz der kategorialen Perzeption weiterhin sehr populär.
Wie sieht der prälexikalische Code aus?
9 Eimas, P.D./Corbit, L., 1973. Selective adaptation of linguistic feature detectors. Cognitive Psychology 4: 99-10910 Summerfield, Q., 1981. Articulatory rate and perceptual constancy in phonetic perception. J. of Experimental Psychology: Human Perception and Performance 7: 1074-109511 Pisoni, D.B./Tash, J., 1974. Reaction times to comparisons within and across phonetic categories. Perception and Psychophysics 15: 285-29012 Massaro, D.W., 1987. Speech perception by ear and eye: A paradigm for psychological enquiry. Hillsdale, N.J.
5
Müssen wir zuerst die Phoneme identifizieren, bevor wir die gesprochenen Wörter erkennen?
Dazu zeigten Untersuchungen13, dass die Versuchspersonen bei der Reaktion auf gehörte
Elemente langsamer auf Phoneme reagierten als auf Silben. Was zum Vorschlag führte, dass
die Phonemidentifikation jener der Silbe nachfolgt. D.h. wir erkennen die einzelnen Wörter
nicht aufgrund der einzelnen Phoneme, sondern wir erkennen sie mit Hilfe von
grundlegenderen Einheiten wie der Silbe. Dieser Ansatz wurde allerdings auch in Frage
gestellt14: Bloß weil wir uns einer höheren Einheit bewusst werden, bedeutet das nicht, dass
diese auch zuerst verarbeitet wird.
Es gibt aber auch entsprechende experimentelle Hinweise, dass die Identifizierung der
einzelnen Phoneme keinesfalls abgeschlossen sein muss, um das entsprechende lexikalisch
Element zu aktivieren15: So ist es bei einer auditiven lexikalischen Entscheidungsaufgabe
schwieriger Pseudowörter, die aus Teilen von echten Wörtern aufgebaut sind, zu erkennen, als
solche, die aus Teilen von Pseudowörtern bestehen: So bilden z.B. „smog“ bzw. „smod“ die
Ausgangswörter; wenn nun in beiden Fällen der Endkonsonant abgeschnitten wird und durch
einen neuen /b/ ersetzt wird – was zu einem Pseudowort „smob“ führt – dann ist jene Version,
die von „smog“ abgeleitet ist, schwieriger als Pseudowort zu erkennen. Dies ist darauf
zurückzuführen, dass die koartikulatorische Information des Vokals eben mit einem echten
Wort übereinstimmt. Hätte nämlich die phonetische Repräsentation des Vokals noch vor dem
lexikalischen Zugriff zur Aktivierung des entsprechenden Phonems geführt, wäre die
koartikulatorische Information verlorengegangen und beide Arten von Pseudowörtern würden
gleich schwer erkennbar sein. Somit könnte auf die lexikalischen Repräsentationen direkt von
den akustischen Informationen im lautlichen Signal zugegriffen werden. Die
koartikulatorische Information der Vokale wird früh verwendet, um den folgenden
Konsonanten und damit das Wort zu identifizieren.
13 Savin, H.B./Bever, T.G., 1970. The non-perceptual reality of the phoneme. J. of Verbal learning and Verbal Behavior 9: 295-30214 Foss, D.J./Swinney, D.A., 1973. On the psychological reality of the phoneme: Perception, identification, and consciousness. J- of Verbal learning and Verbal Behavior 12: 246-25715 Marslen-Wilson, W.D./Warren, P., 1994. Levels of perceptual representation and process in lexical access: Words, phonemes, and features. Psychological Review 101: 653-675
6
Zusammenfassend lässt sich sagen, dass durchaus kontroversielle Ansichten darüber bestehen,
ob zuerst die Phoneme identifiziert sein müssen, bevor wir ein Wort erkennen. Die meisten
Daten weisen darauf hin, dass zwar die Phoneme während der Worterkennung verarbeitet
werden, wir aber nicht alle Phoneme identifiziert haben müssen, damit das Worterkennen
beginnen kann. Wenn wir nun auch noch die Untersuchungen zur Verarbeitung von
Schriftsprache einbeziehen, dann könnte es sich herausstellen, dass wir uns der Phoneme
weniger bewusst sind als etwa Silben. In diesem Zusammenhang wurden zwei
unterschiedliche Phonemrepräsentationen vorgeschlagen16: ein unbewusstes System, das beim
Erkennen von Gesprochenem und bei der Sprachproduktion agiert und ein bewusstes, das sich
im Rahmen der Entwicklung des Schreibens und Lesens entwickelt.
Die Rolle des Kontexts bei der Lauterkennung
Dies ist eine ganz wichtige Frage, denn es geht hier darum, ob das Erkennen von
Gesprochenem ein reiner „bottom-up“ Prozess ist oder ob auch „top-down“ Informationen
eine Rolle spielen. Lässt sich nachweisen, dass wir für das Erkennen eines bestimmten Lautes
das Wort, in dem er auftritt, oder sogar die Satzbedeutung eine Rolle spielt, dann hätten wir
nachgewiesen, dass einen top-down-Einfluss auf die Lauterkennung gibt. Damit wäre die
Sprachperzeption zumindest teilweise ein interaktiver Prozess, denn die Kenntnis des
gesamten Wortes beeinflusst die Perzeption seiner Teile, wobei natürlich die verschiedenen
Arten von Kontext auch verschiedene Einflüsse ausüben können.
Hinweise für den Einfluss des Kontexts kommen einmal aus der kategorialen Perzeption. Wie
wir gesehen haben, werden aufgrund der Werte der VOT Plosive der Kategorie „stimmhaft“
bzw. „stimmlos“ zugeordnet. Es hat sich gezeigt, dass der Wortkontext die Stelle der Grenze
zwischen den beiden beeinflusst17: Es wurde ein ambiges Phonem entsprechend seinem
Kontinuum (z.B. /k/ - /g/) variiert und in einen auslautenden Kontext gestellt, der ein
Wortende darstellte (z.B. „-iss“); dabei stellte sich heraus, dass der Kontext den Punkt
beeinflusste, an dem sich die Perzeption änderte; d.h. die Versuchspersonen kategorisierten
diesen Laut anders als sie es sonst tun würden, wenn das Ergebnis ein Wort ist, hier „kiss“ vs.
„giss“. Dies wird als „lexical identification shift“ bezeichnet. Dass der Wortkontext die
Kategorisierung von Lauten beeinflusst, zeigen weitere Untersuchungen18.
16 Morais, J./Kolinsky, R., 1994. Perception and awareness in phonological processing: The case of the phoneme. Cognition 50: 287-29717 Ganong, W.F., 1980. Phonetic categorization in auditory word perception. J. of Experimental Psychology: Human Perception and Performance 6: 110-12518 Connine, C.M./Clifton, C., 1987. Interactive use of of lexical information in speech perception. J. of Experimental Psychology: Human Perception and Performance 13: 291-319
7
Ein „klassisches“ Ergebnis psycholinguistischer Untersuchungen ist der sog. „phoneme
restoration effect“19. Die Versuchspersonen hörten Sätze wie „The state governors met with
their respective legi*latures convening in the capital city.“, wobei an der Stelle * ein 0,12 sek.
langer Teil, der dem /s/ entsprach, durch ein Räuspern ersetzt worden war. Den
Versuchspersonen fiel diese Ersetzung nicht auf, womit sie den fehlenden Laut zu ersetzen
schienen. Dieses Ergebnis ist insofern interessant als die Versuchspersonen sagten, dass das
ausgelassene Phonem selbst dann wieder eingesetzt wurde, wenn sie wussten, dass es fehlte.
Des weiteren konnten sie auch das Räuspern nicht korrekt lokalisieren. Dieser Effekt konnte
selbst dann noch beobachtet werden, wenn größere Teile ausgelassen wurden
(„le***latures“). Dies wurde so interpretiert, dass die Versuchspersonen semantische und
syntaktische Information weit über die einzelnen Phonem hinaus für die Verarbeitung von
Gesprochenem benützen. Dabei ist der ersetzende Ton nicht ausschlaggebend, es kann auch
ein Summen oder ein Ton sein, aber wenn es sich um eine kurze Stille handelt, dann wird das
leicht entdeckt und es gibt keinen Ersetzungseffekt.
Allerdings wurde in diesen Untersuchungen auch gezeigt, dass der Satzkontext das Erkennen
der Phoneme nicht beeinflusst und nur die postlexikalische Verarbeitung betrifft. Wenn man
sich die folgenden Beispiele ansieht:
(1) The travelers found horrible bats in the cavern/tavern when they visited it.
(2) The travelers found horrible food in the cavern/tavern when they visited it.
In (1) wird “cavern” durch den Satzkontext deutlich begünstigt und in (2) eben “tavern”.
Spielt nun der Satzkontext eine Rolle, dann sollte es in (1) eine stärkere
Phonemwiederherstellung für das getilgte Anfangsphonem für „cavern“ als für „tavern“
geben und umgekehrt in (2). Das war aber nicht der Fall. D.h. also, dass nur die Information
über einzelne Wörter die Identifizierung von Wörtern betrifft und die Information über die
Bedeutung eines Satzes betrifft offensichtlich spätere Stadien.
Möglicherweise übt der „top-down“-Kontext nur einen beschränkten Einfluss auf die
Lauterkennung aus.
19 Obusek, C.J./Warren, R.M., 1973. Relation of verbal transformation and the phoneme restoration effects. Cognitive Psychology 5: 97-107; Warren, R.M., 1970. Perceptual restoration of missing speech sounds. Science 167: 392-393
8
Der zeitliche Verlauf der Worterkennung
Wenn es um die Modellierung des Erkennens von gesprochenen Wörtern geht, dann gilt es
vorab einige Begriffe zu erklären20 (s. Abb. 2): Es werden drei Stadien des Worterkennens
angenommen: erster Kontakt („initial contact“) – lexikalische Auswahl (Selektion) („lexical
selection“) – Worterkennung („word recognition“)
Diese Stadien können sich auch überlappen, was sich entsprechend untersuchen lässt.
Die Worterkennung beginnt damit, dass eine Repräsentation des sensorischen Inputs in einen
ersten Kontakt mit dem Lexikon tritt (erster Kontakt). Wenn nun lexikalische Einträge mit der
bis jetzt vorhandenen Repräsentation überein stimmen, dann werden sie aktiviert. Diese
Aktivierung kann nun „ganz oder gar nicht“ sein (im ursprünglichen Kohortenmodell) oder
die relativen Aktivierungsstärken hängen von bestimmten Eigenschaften der Wörter ab (z.B.
Häufigkeit) oder die Wörter können auch in diesem Ausmaß aktiviert werden, in dem sie mit
den sensorischen Daten übereinstimmen (im neueren Kohortenmodell bzw. im
konnektionistischen TRACE-Modell).
In der Auswahlphase (Selektionsphase) nimmt die Aktivierung zu bis schließlich ein Eintrag
gewählt wird. Das Erkennen des Wortes ist der Endpunkt des Selektionsphase.
20 Frauenfelder, U.H./Tyler, L.K., 1987. The process of spoken word recognition: An introduction. Cognition 25: 1-20
9
erster Kontakt:über eine Repräsentation des sen-sorischen Inputs kommt es zu einem ersten Kontakt mit dem Lexikon
lexikalische Auswahl:der sensorische Input nimmt zu bis ein lexikalischer Eintrag ausgewählt wird
Worterkennung:das Wort wird erkannt; der Worterkennungspunkt liegt meist noch vor dem Hören des gesamten Wortes
Im einfachsten Fall stimmt der Punkt, an dem das Wort erkannt worden ist, mit seinem
Diskriminationspunkt („uniqueness point“) überein, das ist jener Punkt, an dem ein Wort
eindeutig von allen anderen Wörtern unterscheidbar wird, d.h. die analysierte Lautsequenz ist
nur für dieses Wort charakteristisch. Wie lässt sich nun dieser Punkt feststellen? Dazu können
sog. „gating“-Experimente21 verwendet werden. Bei diesen Untersuchungen hört der Proband
einen akustischen Input in kleinen, zeitlich getrennt aufeinanderfolgenden Teilen von ca. 50
ms. Die Aufgabe besteht nun darin, dass die Versuchsperson reagieren muss, sobald sie glaubt
das Wort erkannt zu haben. Dies könnte z.B. bei einem Wort wie „Freundschaft“ an jenem
Punkt erfolgen, an dem das Segment [] verarbeitet worden ist.
In manchen Fällen kann das Erkennen auch erst nach dem Diskriminationspunkt bzw. bei
besonders einschränkenden Kontexten auch schon vor dem Diskriminationspunkt erfolgen.
Jener Punkt, an dem dies erfolgt, wird als Isolationspunkt („isolation point“) bezeichnet. Dies
ist somit jener Punkt, an dem der Großteil der Hörer, eine Entscheidung bezüglich des
gehörten Wortes getroffen haben, obwohl sie noch nicht unbedingt ganz sicher sind22. In der
Folge wird nun der restliche Input beobachtet, bis zu jenem Punkt, an dem ein bestimmter
Grad an Sicherheit erreicht ist – dies ist dann der Worterkennungspunkt („recognition point“).
Nach der Worterkennung kommt es zum lexikalischen Zugriff („lexical access“), bei dem die
gesamte Information eines Wortes – also die phonologische, morphosyntaktische,
semantische und pragmatische – verfügbar wird. In der Folge kommt es nun zum eigentliche
Verstehensprozess, in dem die syntaktischen und semantischen Eigenschaften des Wortes in
die Satzrepräsentationen integriert werden.
Kontextuelle Effekte beim Worterkennen
Inwieweit lassen sich nun kontextuelle Effekte beim Erkennen von Wörtern nachweisen?
Dabei verstehen wir unter Kontext als jene Information, die nicht im unmittelbaren
sensorischen Signal enthalten ist. D.h. es geht um Information(en), die im vorausgegangen
Kontext enthalten waren und auch um jene, die aus anderen („höheren“) Bereichen (z.B.
lexikalischen, syntaktischen, semantischen und pragmatischen) mit einbezogen werden. Dabei
ist natürlich auch die jeweilige Analyseebene zu beachten, so kann der Kontext auf der
Wortebene die Identifikation von einzelnen Phonemen beeinflussen und der Kontext auf
Satzebene kann die Identifizierung von Wörtern beeinflussen.
21 Marslen-Wilson, W.D./Tyler, L.K., 1980. The temporal structure of spoken language understanding. Cognition 8: 1-7122 Tyler, L.K./Wessels, J., 1983. Quantifying contextual contributions to word recognition processes. Perception and Psychophysics 34: 409-420
10
Um solche Einflüsse nachzuweisen muss gezeigt werden, wie top-down Prozesse die
perzeptuelle Verarbeitung auf niedrigeren Ebenen beeinflussen können. Das ist natürlich nicht
unbedingt einfach, da nicht nur der spezifische Kontext in Betracht gezogen werden muss,
sondern auch zu beachten ist, auf welchen Ebenen bzw. Stadien der Verarbeitung dieser
Einfluss wirksam wird.
Grundsätzlich lassen sich im Zusammenhang mit der Untersuchung von kontextuellen
Einflüssen zwei Positionen feststellen: eine autonome und eine interaktionistische. Dies ist
natürlich eine etwas vereinfachende Darstellung, die die Endpunkte auf einem Kontinuum
von möglichen Modellen darstellt.
Dabei geht der autonome Ansatz davon aus, dass der Kontext vor dem Worterkennen keinen
Einfluss ausüben kann. Der Kontext trägt nur zu Bewertung und Integration der lexikalischen
Verarbeitung bei, aber nicht zum Prozess der Verarbeitung. Allerdings erlauben diese
Modelle eine Informationsfluss zwischen den einzelnen Wörtern im Lexikon, aber nicht vom
Lexikon zu den Prozessen auf niedrigeren Ebenen wie z.B. dem Phonemerkennen.
Die interaktiven Modelle dagegen erlauben die Interaktion verschiedenen Arten von
Informationen mit einander. So kann es ein Feedback von den späteren Verarbeitungsebenen
zu den früheren geben. So kann z.B. die Satzbedeutung oder auch der pragmatische Kontext
die Perzeption beeinflussen.
Modelle des Worterkennens
Wie bereits erwähnt, müssen wir, bevor wir auf das Lexikon zugreifen können, den Output
des Hörnervs in ein entsprechendes Format „übersetzen“. Dabei gingen die frühen Modelle
der Lauterkennung von einem „Schablonenabgleich“ („template matching“) aus. D.h. die
Ziele sind als Schablonen gespeichert und die Identifizierung erfolgt dann, wenn eine
entsprechende übereinstimmende Schablone gefunden wurde. Da aber im sprachlichen Signal
viel zu viel Variabilität vorhanden ist, bilden solche Schablonenmodelle keine plausible
Erklärung für die Laut- und Worterkennung.
11
Ein frühes Modell der Sprachperzeption war das Analyse-durch-Synthese-Modell23, das davon
ausging, dass wir gesprochene Sprache erkennen, indem wir uns auf die Handlungen
beziehen, die notwendig sind, um die Laute zu produzieren. Die wichtige Idee bei diesem
Modell bestand in der Annahme, dass wir beim Hören von Gesprochenem eine Folge von
Sprachlauten produzieren bis wir mit dem übereinstimmen, was wir hören. Diese Produktion
erfolgt nicht zufällig, sondern es wird eine erste Annäherung aufgrund der akustischen
Merkmale im Input erzeugt und danach wird versucht die Unterschiede zwischen dieser
Annäherung und dem Input zu verringern.
Eine Variante dieses Modells, die Motor-Theorie der Sprachwahrnehmung, schlägt vor, dass
unser interner Synthetisator den Sprechapparat abbildet und die motorischen Ausführungen
des Sprechers nachbildet und auf diese Weise die Bewegungen, die zu den entsprechenden
Lauten führen, nachvollzieht. Ein Nachweis für dieses Modell besteht darin, dass die
Artikulation der Laute auch eine ausgezeichnete Beschreibung der Laute darstellt: so werden
z.B. [t]-Laute aufgrund des alveolaren Verschlusses gebildet. Allerdings muss die
Spezifizierung der Laute ziemlich abstrakt sein, da auch stumme Personen Gesprochenes gut
verstehen können24 und wir können auch Gesprochenes verstehen, das wir nicht unbedingt
auch produzieren können, wie einen fremden Akzent – aber wir können versuchen das zu
imitieren.
Das Problem dieser Analyse-durch-Synthese Modellen besteht einmal darin, dass es nicht klar
ist, wie vom Produktionssystem erzeugten artikulatorischen hypothetischen Muster mit dem
gehörten Input verglichen werden kann, d.h. wie sehen die erstellten Formate aus, damit sie
vergleichbar werden. Des weiteren sind wir aber auch sehr gut beim Erkennen von deutlich
artikulierten Wörtern, die eher nicht in den Kontext passen, was darauf hinweist, dass das
Erkennen von Gesprochenem primär ein Prozess ist, der von der Analyse der Inputdaten her
gesteuert wird.
23 Halle, M./Stevens, K.N., 1962. Speech recognition: A model and a program for research. IRE Transactions of th Professional Group on Information Theory 8: 155-159; Liberman, A.M./Cooper, F.S./Shankweiler, D.P./Studdert-Kennedy, M., 1967. Perception of the speech code. Psychological Review 74: 431-46124 Lenneberg, E.H., 1962. Understanding language without ability to speak: A case report. J. of Abnormal and Social Psychology 65: 419-425
12
Allerdings sind – wie bereits oben erwähnt – in letzter Zeit wieder vermehrt Überlegungen zu
motorischen Theorien der Perzeption von Gesprochenem angestellt worden. Das Vergleichen
des auditiven Signals mit den motorischen Repräsentationen für die Produktion kann
tatsächlich eine Hilfe für die Kategorisierung des akustischen Signals darstellen. Dabei
kommt es zu Überlegungen, dass diese motorischen Repräsentationen einen privilegierten
Status in der Sprachperzeption haben und die Perzeption von Gesprochenem stellt eigentlich
die Perzeption von motorischen Gesten dar. Und zwar in dem Sinne, dass das Ziel der
Perzeption darin besteht, zu erkennen, welche Bewegungen des Vokaltrakts zu welchen
Lauten geführt haben und weniger die abstrakte Identifizierung der Laute selbst25. Die
Untersuchungsergebnisse von bildgebenden Verfahren zeigen eine Aktivierung der
motorischen Areale während der Perzeption von gesprochener Sprache26, wiewohl das noch
nicht bedeutet, dass die motorischen Areale eine kausale Rolle in der Sprachperzeption
spielen. Wenn auch solche Analyse-durch-Synthese Modelle nicht unbedingt eine
vollständige Erklärung der Sprachperzeption bieten können, scheint es doch so zu sein, dass
motorische Prozesse eine Rolle spielen könnten.
Spiegelneuronen: Neuronen im motorischen Kortex (aber nicht nur: s. a. G. angularis), die
nicht bei Durchführung einer spezifischen Handlung feuern, sondern auch bei der
Beobachtung der Durchführung dieser Handlung durch eine anderes Individuum. Nun gibt es
auch Spiegelneuronen, die auf auditive Reize reagieren (audiovisuelle Spiegelneuronen oder
Echo-Spiegelneuronen), was bedeuten könnte, das beim Hören von Sprachlauten eine
entsprechende motorische Repräsentation der Artikulationsbewegung aktiviert wird.
Prinzipiell können wir zwei Arten von Modellen für die Worterkennung unterscheiden. Das
Kohortenmodell („cohort model“) mit seiner bottom-up Verarbeitung und konnektionistische
Modelle, wie das TRACE Modell, die die interaktive Natur der Worterkennung betonen. Beim
Kohortenmodell können wir zwischen einer frühen und einer späteren Variante unterscheiden,
wobei die spätere eine Modifizierung darstellt, die zum Teil als Antwort auf das TRACE
Modell zu sehen ist.
25 Galantucci, B./Fowler, C.A./Turvey, .T., 2006. The motor theory of speech perception reviewed. Psychonomic Bulletin and Review 13: 361-377; Liberman, A.M./Whalen, D.H., 2000. On the relation of speech to language. Trends in Cognitives Sciences 4: 187-19626 Watkins, K.E./Paus, T., 2004. Modulation of motor excitability during speech perception: The role of Broca’s area. J. of Cognitive Neuroscience 16: 978-987
13
Kohortenmodell
Das Kohortenmodell wurde von Marslen-Wilson und Welsh27 entwickelt. Die zentrale
Überlegung bei diesem Modell besteht darin, dass wir, wenn wir gesprochene Sprache hören,
sozusagen eine „Kohorte“ von Lexemen aktivieren, die alle mit dem ersten Phonem des
gehörten Wortes beginnen. In der Folge, wenn weitere Phoneme identifiziert sind, werden
immer mehr Kandidaten aus der ursprünglich aktivierten Kohorte ausgeschieden, bis
schließlich nur mehr ein Lexem übrigbleibt. Damit ist die Worterkennung erfolgt. Wie bereits
erwähnt muss man zwischen einer früheren (Marslen-Wilson, 1984) und einer späteren
(Marslen-Wilson, 1989, 199028) Version unterscheiden, wobei die frühere mehr Interaktion
erlaubte, und die spätere eine autonomere Verarbeitung aufweist und das System der
Worterkennung besser mit nicht präzisen Wortanfängen umgehen kann. (Folie 3)
Dieses Modell besteht aus drei Verarbeitungsstufen. Im ersten Schritt, dem Zugangsstadium
(„access stage“), werden aufgrund der perzeptuellen Repräsentation Lexeme aktiviert, die als
mögliche Kandidaten für das jeweilige Wort in Frage kommen könnten – eine Kohorte. Der
nächste Schritt besteht in einem Auswahlverfahren („selection stage“), in dem nun ein
Element aus der Kohorte ausgewählt wird. Den Abschluss bildet ein Integrationsstadium
(„integration stage“), bei dem nun die syntaktischen und semantischen Eigenschaften des
Wortes genutzt werden, um es z.B. in die Repräsentation eines ganzen Satzes zu integrieren.
Die beiden ersten Schritte, Zugang und Auswahl, sind prälexikalisch und der dritte,
Integration ist postlexikalisch.
27 Marslen-Wilson, W.D./Welsh, A., 1978. Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology 10: 29-63; Marslen-Wilson, W.D., 1984. Spoken word recognition: A tutorial review. In: H. Bouma/D.G. Bouwhis (eds.), Attention and Performance X: Control of language processes. Hove, UK: 125-150; s.a. Marslen-Wilson, W.D., 1987. Functional parallelism in spoken word recognition. Cognition 25: 71-10228 Marslen-Wilson, W.D.(ed), 1989. Lexical representation and process. Cambridge, MA; Marslen-Wilson, W.D., 1990. Activation, competition, and frequency in lexical access. In: G.T.M. Altmann (ed.), Cognitive models of speech processing. Cambridge, MA: 148-172
14
Wenn wir also den Anfang eines Wortes hören, wird eine Kohorte von Wörtern aktiviert, die
denselben Anfang haben. In der Folge kommt es zu einer aktiven Eliminierung von
Kandidaten, wobei alle möglichen Mittel herangezogen werden, wie weitere phonologische
Information, aber auch – zumindest in der frühen Version – der semantische und syntaktische
Kontext. Die meiste Verarbeitungsaktivität tritt rund um den Diskriminationspunkt auf – also
dann wenn das Wort eindeutig von den anderen unterschieden werden kann.
Zu beachten ist auch, dass der Erkennungspunkt nicht unbedingt mit dem
Diskriminationspunkt übereinstimmen muss: So kann in einem entsprechenden
einschränkenden Satzkontext („Es ist verboten den Rasen zu be-!“) nach der frühen Version
des Modells an diesem Punkt der Kontext bereits ausreichen, um all anderen Elemente der
Kohorte auszuschließen. Dieser starke kontextuelle Einfluss kann natürlich auch zu Fehlern
führen, indem aus dem Kontext heraus ein anderes Wort erwartet wird als dann tatsächlich
produziert wird. Wenn nun die sensorische Information schlecht ist, dann kann der
Erkennungspunkt auch deutlich nach dem Diskriminationspunkt liegen. Am ehesten besteht
eine Übereinstimmung zwischen dem Diskriminationspunkt und dem Erkennungspunkt wohl
nur bei sehr deutlich gesprochenen Einzelwörtern.
Im überarbeiteten Modell29 wirkt sich der Einfluss des Kontexts nur mehr im
Integrationsstadium aus. In diesem Modell hat die bottom-up Verarbeitung Vorrang, d.h. der
Kontext kann nicht mehr die Elemente, aus denen die ursprünglichen Kohorte besteht,
einschränken – somit kann die Zahl der Kandidaten nicht schon vor dem
Diskriminationspunkt verringert werden. Diese Veränderung erfolgte aufgrund von
Ergebnissen von entsprechenden Experimenten. Gegenüber dem ursprünglichen Modell ist
nun das Ausscheiden von Wortkandidaten aus der Kohorte kein entweder – oder mehr. Dies
geht auf einen Einwand gegen das ursprüngliche Modell zurück: Was passiert, wenn der
Anfang eines Wortes nicht korrekt perzipiert werden kann? Das würde ja dazu führen, dass
das korrekte Element nicht in der Kohorte aufscheint. Allerdings ist es uns, wie wir alle selbst
beobachten können, möglich, in einem solchen Fall – zwar nicht immer, aber manchmal –
diese „Fehlerhaftigkeit“ zu korrigieren: Wenn wir etwa ein Wort wie /faze/ hören (z.B. in
einem Satz wie: „Sie gibt die Blumen in eine /faze/.“), dann kann es zwar sein, dass wir kurz
zögern, aber wir können das korrekte Wort doch identifizieren. Somit ist im revidierten
Modell auch der Grad der Überlappung wichtig, obwohl weiterhin die Wortanfänge für die
Erstellung der Kohorte eine besondere Rolle spielen.
29 z.B. Marslen-Wilson, W.D.(ed), 1989. Lexical representation and process. Cambridge, MA
15
Was passiert nun mit jenen Elemente der Kohorte, für die es keine weiteren positive
sensorische Hinweise gibt? Das Aktivierungsniveau dieser Kandidaten zerfällt langsam und
geht wieder auf das Ruheniveau zurück. Sollte in der Folge allerdings entsprechende positive
Informationen auftauchen, dann können sie sozusagen „wiederbelebt“ werden. D.h. der
Kontext dient nun nicht mehr der Auswahl von Vorschlägen für Kandidaten, sondern – wenn
man so will – der Abwahl. Die passenden Wortkandidaten werden nun auf einer höheren
Ebene in die Satzrepräsentation integriert. Zwar kann der Satzkontext die perzeptuellen
Hypothesen nicht außer Kraft setzen, sondern besitzt nur einen späteren Einfluss, wenn ein
Kandidat als die wahrscheinliche Wahl auftaucht.
Die Häufigkeit beeinflusst das Aktivierungsniveau der Kandidaten in den frühen Stadien des
lexikalischen Zugangs, indem die Aktivierungszunahme für hochfrequente Wörter größer ist
als für niederfrequente, wobei diese Frequenzeffekte in der Anfangskohorte relativ sind, d.h.
es besteht kein entweder – oder, sondern die Elemente variieren innerhalb eines
Aktivierungskontinuums. Auch die jüngste Version des Kohortenmodells30 betont den
direkten Zugang zu den lexikalischen Einträgen aufgrund der akustischen Analyse des
sprachlichen Signals.
In einer Anzahl von experimentellen Untersuchungen wurde versucht das Kohortenmodell zu
untermauern. So wurde in mehreren Untersuchungen die Technik des Schattensprechens
(„shadowing“) angewendet, um zu untersuchen, inwieweit Syntax und Semantik mit dem
Worterkennen interagieren. Bei diesen Aufgaben hören die Vpn. über Kopfhörer einen Text,
den sie so schnell wie möglich nachsprechen müssen. Dies gelingt manchen Sprechern so gut,
dass sie nur 250 ms hinter dem jeweiligen Textelement zurückliegen31.
In einer weiteren Untersuchung32 wurden in die Texte Fehler eingebaut, d.h. es gab entstellte
Laute, so dass manche Wörter falsch ausgesprochen wurden. Die Vpn. wurden auf diese
Fehler nicht aufmerksam gemacht, sondern sie sollten die Texte nur wiederholen. In ca. 50%
der Fälle wurden die Texte so wiedergegeben, als ob sie keine Fehler enthielten. D.h. es gab
sog. „flüssige Ersetzungen“, wie z.B. dass „travedy“ als „tragedy“ wiedergegeben wurde.
30 Marslen-Wilson, W.D./Warren, P., 1994. Levels of perceptual representation and process in lexical access: Words, phonemes, and features. Psychological Review 101: 653-67531 Marslen-Wilson, W., 1973. Linguistic structure and speech shadowing at very short latencies. Nature 244: 522-52332 Marslen-Wilson, W.D./Welsh, A., 1978. Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology 10: 29-63
16
In dieser Untersuchung gab es 3 Variablen, die von besonderem Interesse waren: (1) die
Größe des Unterschieds zwischen dem Zielwort und dem fehlerhaften Wort, gemessen in
distinktiven Merkmalen; (2) die lexikalische Beschränkung, die sich in der Zahl der
Kandidaten widerspiegelte, die an verschiedenen Positionen im Wort verfügbar sind; dies
erfolgte durch die Manipulation der Silbenposition, in der der Fehler auftrat (1. oder 3. Silbe);
(3) der Kontext, d.h. das betroffene Wort war eine wahrscheinliche oder eher
unwahrscheinliche Fortsetzung des Satzbeginns (z.B. stark einschränkender Kontext: „Still,
he wanted to smoke a cigarette.“, wenig einschränkend: „It was his misfortune that they were
stationary.“).
Die Ergebnisse zeigten, dass die meisten flüssigen Ersetzungen dann auftraten, wenn die
Unterschiede zum Zielwort nur gering waren, die Veränderung in der letzten Silbe auftrat und
das Wort aufgrund des Kontexts sehr stark voraussagbar war. Die meisten genauen
Wiedergaben traten bei größeren Abweichungen und bei eher wenig einschränkenden Kontext
auf. Diese Ergebnisse wurden so interpretiert, dass sie darauf hinweisen, dass das
unmittelbare Perzept das Ergebnis von bottom-up perzeptuellen Input und top-down
kontextuellen Beschränkungen ist. Solche Experimente mit dem Schattensprechen weisen
auch darauf hin, dass sowohl syntaktische als auch semantische Analysen fast unmittelbar mit
dem Hören beginnen und nicht erst nachdem ein ganzer Teilsatz gehört wurde33.
Bei der Perzeption von Wörtern achten wir nicht auf alle Teile des Wortes in gleicher Weise,
denn es scheint die erste Silbe für die Perzeption besonders wichtig zu sein. Dies zeigte sich
auch bei Aufgaben, bei denen auch falsche Aussprachen geachtet werden musste34. Dabei
hören die Vpn. Gesprochenes, in dem ein Laut verändert wurde (z.B. „boot“ zu „poot“) und
sie entdeckten diese Veränderungen. Wie auch bei den Aufgaben zum Schattensprechen sind
die Vpn. sensibler für Veränderungen am Beginn des Wortes.
So hat sich auch gezeigt, dass Teile von Wörtern beinahe genauso gut als Prime („priming“ =
assoziative Aktivierung) agieren können wie das gesamte Wort selbst35: So ist z.B. „capt-„ ein
fast gleich gutes Primewort für das Wort „ship“ wie das Wort „captain“ selbst. Dagegen
produzieren Reimfragmente von Wörtern kaum einen Primingeffekt, z.B. ergibt sich weder
bei „cattle“ noch bei „yattle“ (Pseudowort) ein Primingeffekt für „battle“36.
33 Marslen-Wilson, W.D., 1975- Sentence perception as an interactive parallel process. Science 189: 226-22834 Cole, R.A., 1973. Listening for mispronunciation: A measure of what we hear during speech. Perception and Psychophysics 13: 153-156; Cole, R.A./Jakimik, J., 1980. A model of speech perception. In R.A. Cole (ed), Perception and production of fluent speech. Hillsdale, NJ: 133-16335 Marslen-Wilson, W.D., 1987. Functional parallelism in spoken word recognition. Cognition 25: 71-102; Zwitserlood, P. 1989. The locus of the effects of sentential-semantic context in spoken-word processing. Cognition 32: 25-6436 Marslen-Wilson, W.D./Zwitserlood, P., 1989. Accessing spoken words: The importance of word onsets. J. of Experimental Psychology: Human Perception and Performance 15: 576-585
17
Auch die bereits erwähnten gating-Experimente wurden zur Untersuchung der
Worterkennung im Rahmen des Kohortenmodells herangezogen. In diesen Studien37 wurde
festgestellt, dass die Probanden ca. 333 ms benötigen, um ein einzelnes Wort zu
identifizieren, aber für ein Wort in einem entsprechenden Kontext nur 199 ms. Aber es zeigte
sich auch, dass die bis zum Erkennungspunkt aktivierten Kandidaten der Kohorte solche sind,
die mit der bis zu diesem Punkt erstellten perzeptuellen Repräsentation übereinstimmen –
aber nicht mit dem Kontext. Somit stellte sich heraus, dass die syntaktischen und
semantischen Beschränkungen durch den Kontext – zumindest am Beginn – nicht verhindern,
dass Wortkandidaten aktiviert werden, die mit dem sensorischen Input übereinstimmen aber
nicht mit dem Kontext. Somit scheint also der Satzkontext keine frühen Effekte aufzuweisen.
Obwohl offensichtlich der Kontext nicht in der Lage ist, die Erzeugung von Kandidaten zu
beeinflussen, so könnte er helfen, diese zu entfernen.
Mit Hilfe der Technik des „cross-modal priming“ wurde festgestellt, dass am Beginn eines
Wortes ein Priming von mit dem Zielwort nicht in Beziehung stehenden Wörtern möglich ist.
In dieser Untersuchung38 hörten die Versuchspersonen über Kopfhörer Sprache, während sie
gleichzeitig auf einen Computermonitor schauten, um eine lexikalische Entscheidungsaufgabe
durchzuführen. Auf diese Weise konnte die Beziehung zwischen dem Wort auf dem
Bildschirm und dem Gesprochenen sowie die zeitliche Relation zwischen den beiden
systematisch variiert werden. Für den Test wurde Holländisch als Sprache verwendet. Die
Versuchspersonen hörten unterschiedliche Teile eines Wortes wie „kapitein“ („Kapitän“),
bevor ein mit diesem in Beziehung stehendes Wort oder ein Kontrollwort auf dem Bildschirm
erschien. Beim Hören von „kap“ kann das Wort noch nicht diskriminiert werden, denn es
könnte auch z.B. der Beginn von „Kapital“ sein. In dieser Untersuchung wurde nun
festgestellt, dass es in einer solchen Situation zu einer Aktivierung von Wörtern kommt, die
mit beiden möglichen Wörtern („Kapitän“ und „Kapital“) in Beziehung stehen, nämlich
„Schiff“ und „Geld“. Wenn das ganze Wort gehört worden war, war aber nur mehr eine
Aktivierung der mit diesem Wort in Verbindung stehenden möglich.
37 Grosjean, F., 1980. Spoken word recogniton processes and the gating paradigm. Perception and Psychophysics 28: 267-283; Tyler, L.K./Wessels, J., 1983. Quantifying contextual contributions to word-recognition processes. Perception and Psychophysics 34: 409-420; Tyler, L.K., 1984. The structure of the initial cohort. Perception and Psychophysics 36: 415-42738 Zwitserlood, P. 1989. The locus of the effects of sentential-semantic context in spoken-word processing. Cognition 32: 25-64
18
Es zeigte sich auch, dass die häufigeren Kandidaten einen stärkeren Primingeffekt auslösten
als die weniger häufige. Ein weiteres wichtiges Ergebnis stellte die Erkenntnis dar, dass ein
entsprechender Kontext keinen Effekt in der frühen Phase des Wortes ausübte. Ein
Kontexteffekt wurde aber erst nach dem Isolationspunkt des Wortes festgestellt. Der Kontext
steigert das Aktivierungsniveau des spezifischen Wortes in Bezug zu den anderen
Kandidaten. Diese Ergebnisse weisen darauf hin, dass der Satzkontext einen eher späten
Einfluss auf das Verstehen eines Wortes und seine Integration in die Syntax und Semantik des
Satzes hat.
Zwar bildete den Ausgangspunkt der Überlegungen zum Kohortenmodelle auch die
Annahme, dass die Bewertung der einzelnen Wortkonkurrenten parallel erfolgt, so dass die
Zahl der Konkurrenten (die Größe der Kohorte) keinen Einfluss auf das Erkennen des
Zielitems ausüben sollte. Allerdings zeigt sich in Experimenten39, dass die Struktur der
Nachbarschaft der jeweiligen Wörter die Geschwindigkeit und die Genauigkeit das auditive
Worterkennen bei einer Reihe von Aufgaben beeinflusst, einschließlich der Identifizierung
der Wörter und auditiver lexikalischer Entscheidungsaufgaben. So spielt die Anzahl und
Charakteristika (wie Häufigkeit) der Konkurrenten eines Wortes eine wichtige Rolle. So sind
wir weniger gut in der Lage hochfrequente Wörter, die viele hochfrequente Nachbarn haben,
zu identifizieren als Wörter mit weniger Nachbarn oder niederfrequenten Nachbarn. Es wird
angenommen, dass die Zahl der Konkurrenten (die „neighbourhood density“) die
Entscheidung beeinflusst. Wörter mit vielen Nachbarn benötigen mehr Zeit für die
Identifikation und es werden wegen der Konkurrenten mehr Fehler produziert.
Wie bereits erwähnt beeinflusst die Häufigkeit der Kandidaten in einer Kohorte die
Worterkennung. So stellte Marslen-Wilson (199040) fest, dass die Zeit, die benötigt wird, um
ein Wort zu erkennen, auch von der Frequenz der Kandidaten in der Kohorte abhängt. So
dauert es bei hochfrequenten Konkurrenten länger bis der Isolationspunkt erreicht ist. Am
längsten dauert es bei einem niederfrequenten Zielwort und hochfrequenten Konkurrenten.
Die zweitlängste Zeit wird gebraucht, wenn sowohl das Zielwort als auch die Konkurrenten
niederfrequent sind. Die kürzeste Zeit benötigen hochfrequente Zielwörter neben
niederfrequenten Konkurrenten.
39 z.B. Luce, P.A./Pisoni, D.B./Goldinger, S.D., 1990. Similarity neighbourhoods of spoken words. In G.T.M. Altmann (ed.), Cognitive models of speech processing. Cambridge, MA: 122-14740 Marslen-Wilson, W.D., 1990. Activation, competition, and frequency inlexical access. In: Altmann, G.T.M. (ed.), Cognitive models of speech processing: Psycholinguistic and computational perspectives. Cambridg, MA: 148-172
19
Aber nicht nur die phonologischen Nachbarn können das auditive Erkennen beeinflussen,
sondern auch die orthographischen Nachbarn haben einen unterstützenden Einfluss auf das
Erkennen. So wurde festgestellt41, dass gesprochene Wörter, die viele visuell ähnliche
Nachbarn haben, schneller identifiziert werden als jene mit wenigen Nachbarn. Dies erfolgt
wahrscheinlich deswegen, weil irgendwo im System die sublexikalischen Einheiten bzw.
Worteinheiten – oder beide – für die jeweiligen Modalitäten in Verbindung stehen.
Zusammenfassend kann man sagen, dass nach dem späteren Modell der Kontext nun nur
mehr das Integrationsstadium beeinflusst und dass die einzelnen Elemente ein
Aktivierungsniveau aufweisen, dass proportional zur Übereinstimmung des jeweiligen
Elements mit dem akustischen Input ist, so dass eine Anzahl von Kandidaten parallel weiter
analysiert werden können. Das führt auch zu einem schrittweisen Zerfall der Kandidaten und
nicht zur unmittelbaren Eliminierung, was auch dafür sorgt, dass das System leichter Fehler
korrigieren kann. Ein Problem bleibt allerdings bestehen: Dieses Modell hängt stark vom
Wissen um den Beginn eines Wortes ab, obwohl es keinen expliziten Mechanismus besitzt,
der den Beginn der Wörter erkennt.
Das TRACE-Modell
Dieses Modell ist ein äußerst interaktives Modelle des Worterkennens42, das sich aus einem
interaktiven Aktivierungsmodell für das Erkennen von Buchstaben und visuellen Wörtern
herleitet43. Es werden hier nur die wichtigsten Merkmale des Modells besprochen, aber nicht
die mathematischen Details. Das wohl wichtigste Merkmal des TRACE-Modells besteht in
der Betonung der Rolle der top-down Verarbeitung auf das Erkennen von Wörtern. D.h. der
lexikalische Kontext kann die akustische perzeptuelle Verarbeitung direkt unterstützen und
Information, die über der Wortebene besteht, kann die Wortverarbeitung direkt beeinflussen.
41 Ziegler, J.C./Muneaux, M./Grainger, J., 2003. Neighbourhood effects in auditory word recognition : Phonological competition and orthographic facilitation. J. of memory and Language 48: 779-79342 McClelland, J.L./Elman, J.L., 1986. The TRACE model of speech perception. Cognitive Psychology 18: 1-8643 McClelland, J.L./Rumelhart, D.E., 1981. An interactive activation model of context effects in letter perception: Part 1. An account of the basic findings. Psychological Review 88: 375-407
20
Da TRACE ein konnektionistisches Modell ist, besteht es aus vielen einfachen
Verarbeitungseinheiten die mit einander verbunden sind. Diese Einheiten sind in drei Ebenen
angeordnet: Ausgehend von einer frühen perzeptuellen Verarbeitung der akustischen
Merkmale besteht a) eine Ebene von Inputeinheiten, die phonologische Merkmale darstellen,
die b) wiederum mit Phonemen in Verbindung stehen und mit diesen sind c) mit den
Outputeinheiten verbunden, die die Wörter repräsentieren. Die Inputeinheiten werden
„aktiviert“ (mit Energie versorgt) und diese Aktivierung breitet sich über die Verbindungen
aus, was am Ende dazu führt, dass nur ein Element aktiviert bleibt, das dann jenes Wort ist,
dass das Netzwerk erkannt hat. Die einzelnen Einheiten stehen über exzitatorische und
inhibitorische Verbindungen mit einander in Kontakt. Außerdem sind die Verbindungen
zwischen den Ebenen bidirektional, d.h. sie gehen in beide Richtungen, bottom-up und top-
down. Die inhibitorischen Verbindungen auf einer Ebene sorgen dafür, dass sobald eine
Einheit aktiviert ist, eine Inhibition der anderen Einheiten erfolgt. Dieses Mechanismus
betont das Konzept des Wettbewerbs zwischen den Einheiten auf derselben Ebene.
Diese Modell wird als eine Computersimulation implementiert und die Durchläufe der
Simulationen werden mit dem verglichen, was bei der normalen Verarbeitung von
Gesprochenem passiert. So zeigt dieses Modell z.B. wie das lexikalische Wissen die
Perzeption unterstützen kann: Wenn etwa im Input nicht deutlich unterscheidbar war, ob es
sich um ein /g/ oder /k/ handelte, aber das Folgende mit /-raft/ übereinstimmt, dann wird vom
Modell /k/ erkannt.
Die kategoriale Perzeption ergibt sich in diesem Modell als Konsequenz der Inhibitionen auf
der Phonemebene. Auch beim TRACE Modell spielen die Laute am Wortanfang eine
wichtige Rolle und sie tragen auch mehr zur Aktivierung von Wortknoten bei als die Laute
am Wortende.
TRACE kann mit den kontextuellen Einflüssen auf die Perzeption von gesprochener Sprache
sehr gut umgehen. Es kann auch mit einem gewissen Maß an akustischer Variabilität gut
umgehen und es kann auch die o.e. Effekte, wie Koartikulation oder „phoneme restoration“,
gut erklären. Ebenso ist dieses Modell recht gut beim Auffinden von Wortgrenzen und auch
undeutlicher („noisy“) Input wird gut verarbeitet. Wie bei allen Computermodellen ist
TRACE ganz explizit.
Allerdings besteht auch die Meinung, dass dieses Modell zu „mächtig“ ist – also zu viel kann,
denn es könnte ein jedes Untersuchungsergebnis zur Sprachperzeption erklären.
21
In einer Untersuchung44 mussten die englischsprachigen Hörer eine Entscheidung über ein
Phonem durchführen, wobei der tatsächlich gehörte Laut auf einem Kontinuum zwischen /l/
und /r/ lag. Diese Laute traten in folgenden Kontexte auf: /s_i/, /p_i/ und /t_i/. Dabei
begünstigt der Kontext /s_i/ die Identifizierung eines /l/, da es ein Anzahl von englischen
Wörtern gibt, die mit /sli-/ beginnen, aber keine mit /sri-/. Der Kontext /t_i/ begünstigt /tri-/
aber nicht /tli-/ und der Kontext /p_i/ begünstigt beide Phoneme in etwa gleich stark. Die
Ergebnisse zeigten, dass der Kontext die Leistungen beeinflusst und zwar so, dass die Hörer
das ambige Phonem eher als /l/ im Kontext /s_i/ klassifizierten und als /r/ im Kontext /t_i/.
Das Verhalten der Versuchspersonen unterschied sich aber von dem des TRACE Modells: Im
Modell hat der Kontext dann den größten Einfluss, wenn das sprachliche Signal am
mehrdeutigsten ist und er hat weniger Effekt, wenn das Signal weniger ambig ist. Bei den
Versuchspersonen waren die Effekte des Kontexts in bezug zur Ambiguität aber konstant, d.h.
der Grad der Mehrdeutigkeit des sprachlichen Signals begünstigt keine Kontexteffekte.
44 Massaro, D.W., 1989. Testing between the TRACE model and the fuzzy logical model of speech perception. Cognitive Psychology 21: 398-421
22
Das Hauptproblem des TRACE Netzwerks liegt darin, dass es auf der Überlegung beruht,
dass top-down Information in den Erkennungsprozess „eindringt“. Das Ausmaß des
Einflusses des Kontexts auf den Prozess des Erkennens gesprochener Sprache wird durchaus
kontroversiell diskutiert. Es gibt auch Untersuchungen45, die darauf hinwiesen, dass der
Kontext nur bei perzeptuell undeutlichen Stimuli einen Einfluss ausübt. Mit einer weiteren
Untersuchung46 wurde versucht die interaktiven Effekte nachzuweisen. Dabei ging es darum,
dass „eingebildete“ Phoneme, die aufgrund der lexikalischen top-down Verarbeitung
entstanden waren, die Koartikulation beeinflussen können, d.h. auf der grundlegendsten
Analyseebene operieren können – wie das eben von TRACE vorausgesagt wird. Den
Ausgangspunkt bildeten Wortpaaren wie „English dates/gates“ oder „copious dates/gates“,
wobei der Anfangslaut des zweiten Wortes auf einem Kontinuum zwischen /d/ und /g/ lag,
beeinflussen koartikulatorische Effekte des letzten Lauts des ersten Worts den ersten Laut des
zweiten Worts. Die Hörer sind diesen Effekten gegenüber sehr sensibel: dieser Effekt wird als
„compensation for co-articulation“ bezeichnet. D.h. es ist eher wahrscheinlich, dass das
ambige Phonem als /d/ identifiziert wird, wenn es einem // folgt („English“) und eher als /g/,
wenn es einem /s/ folgt („copious“). Somit sollten die Hörer „English dates“ und „copious
gates“ hören. In dieser Untersuchung wurde nun gezeigt, dass dieser Kompensationseffekt
auch dann auftrat, wenn der letzte Laut von „English“ und „copious“ durch einen Laut, der in
der Mitte zwischen /s/ und // lag, ersetzt worden war.
45 McQueen, J., 1991. The influence of the lexicon on phonetic categorisation: Stimulus quality and word-final ambiguity. J: of Experimental Psychology: Human Perception and Performance 17: 433-443; Norris, D., 1994. Shortlist: A connectionist model of contious speech recognition. Cognition 52: 189-23446 Elman, J.L./McClelland, J.L., 1988. Cognitive penetration of the mechanisms of perception: Compensation for coarticulation of lexically restored phonemes. J. of Memory and Language 27: 143-165
23
Dieses Ergebnis scheint eher ein interaktives Modell denn ein autonomes zu unterstützen. Das
Lexikon scheint also einen prälexikalischen Effekt zu beeinflussen. Allerdings ist es nicht
unbedingt notwendig diese Wahl des Anlautes des zweiten Worts auf den
Kompensationseffekt zurückzuführen. So haben konnektionistische Simulation, die strikt
bottom up arbeiten, gezeigt, dass sie den Unterschied zwischen /g/ nach /s/ nach // lernen
können; d.h. es bestehen Wahrscheinlichkeiten nach denen bestimmte Phoneme mit einander
auftreten können (Phonotaktik). In einer entsprechenden Untersuchung47 wurde gezeigt, dass
diese sequentiellen Abhängigkeiten in der Perzeption von gesprochener Sprache genutzt
werden. Es wurden diese Kompensationseffekte für die Koartikulation bei der
Kategorisierung von Verschlusskonsonanten, wenn ihnen ein ambiger frikativer Laut am
Ende eines Pseudoworts folgte, festgestellt. So besteht etwa in der Phonemabfolge eines
Pseudoworts wie „der?“ eine Bevorzugung eines /s/ im Auslaut, wogegen die Sequenz „nai?“
ein // bevorzugt – tatsächlich waren die Laute zwischen diesen beiden. Diesen
Pseudowörtern folgte ein Wort, dass mit einem Verschlusskonsonanten begann, der auf dem
Kontinuum von /t/ zu /k/ lag – also von „tapes“ bis „capes“. Die Identifizierung des
Verschlusskonsonanten wurde vom vorausgehenden ambigen Frikativ unterschiedlich
beeinflusst, je nach dem Pseudowortkontext des Frikativ. Da aber das vorausgehende Wort
ein Pseudowort war, konnte der Einfluss nicht über das lexikalische Wissen erfolgen. Da aber
die Kompensation doch erfolgte, weist dies auf den Einfluss des Wissens über die Abfolge
von einzelnen Phonemen hin.
In einem Überblick über die Literatur bezüglich des Einflusses des Kontexts auf die
Perzeption von gesprochener Sprache wird wie folgt zusammengefasst48: Es wird davon
ausgegangen, dass ein Feedback in der Sprachperzeption nicht (niemals – „never“) notwendig
ist. Tatsächlich – so wird argumentiert – behindert top-down Feedback das Erkennen. Das
Feedback kann die Genauigkeit der Verarbeitung nicht verbessern – es kann das Entdecken
von Fehlern aufheben und somit die Genauigkeit verringern – es kann die Verarbeitung nur
beschleunigen. Das erfolgt über einen Austausch von Geschwindigkeit gegenüber
Genauigkeit. Die Crux an der ganzen Sache – den Überlegungen, ob es nun einen Einfluss des
lexikalischen Kontexts auf die phonematischen Entscheidungen gibt – besteht eben darin,
dass es sich immer im Aufgaben handelt, bei denen Entscheidungen über Laute getroffen
werden müssen, wie z.B. beim Phonemmonitoring, der „phoneme restoration“ oder der
Kategorisierung.
47 Pitt, M.A./McQueen, J.M., 1998. Is compensation for coarticulation mediated by the lexicon? J. of memory and Language 39: 347-37048 Norris, D./McQueen, J.M./Cutler, A., 2000. Merging information in speech recognition: Feedback is never necessary. Behavioral and Brain Sciences 23: 299-370
24
Neuere Modelle
Neuere Netzwerke verwenden sogenannte „rekurrente Verbindungen“ („recurrent
connections“) von einer versteckten Ebene, um Informationen über die früheren Zustände des
Netzwerks zu speichern49. Damit kann in diesen Netzwerken auch Information über die Zeit
gespeichert werden, womit sich eine plausiblere Darstellung der zeitlichen Natur der
Verarbeitung von Sprache ergibt als das etwa durch ein Modell wie TRACE erfolgte, wo es
fixe zeitliche Einheiten gab, was auch zu Problemen mit den Variationen in der
Sprechgeschwindigkeit führte. (Folie 4)
Das Kohortenmodell wurde erweitert50, um den Prozess abzubilden, der zwischen
phonologischer und lexikalischer Information vermittelt. Es wurde ein konnektionistisches
Modell entwickelt, das die verteilte („distributed“) Natur der lexikalischen Repräsentationen
betont, was bedeutet, dass die Information über ein jedes Wort über eine große Anzahl von
Verarbeitungseinheiten verteilt ist. Ein weiterer Punkt, in dem sich dieses Modell von anderen
konnektionistischen Modellen unterscheidet, ist, dass die Information über das Gesprochene
auf niederen Ebenen – repräsentiert durch phonetische Merkmale – direkt auf die
lexikalischen Formen abgebildet wird. Es sind keine zusätzlichen Ebenen der phonologischen
Verarbeitung involviert, obwohl es eine zusätzliche Schicht von versteckten Einheiten gibt,
die zwischen dem Merkmalsinput und den semantischen und phonologischen Outputebenen
vermitteln.
49 Elman, J.L., 1990. Finding structure in time. Cognitive Science 14: 179-21150 Gaskell, M.G./Marslen-Wilson, W.D., 1997. Integrating form and meaning: A distributed model of speech perception. Language and Cognitive Processes 12: 613-656; Gaskell, M.G./Marslen-Wilson, W.D., 1998. Mechanisms of phonological inference in speech perception. J. of Experimental Psychology: Human Perception and Performance 24: 280-398; Gaskell, M.G./Marslen-Wilson, W.D., 2002. Representation and competition in the perception of spoken words. Cognitive Psychology 45: 220-266
25
Mit diesem Modell wurden einige wichtige Aspekte der Verarbeitung von Gesprochenem
simuliert. So ergibt dieses Modell eine gute Darstellung des zeitlichen Verlaufs des
lexikalischen Zugriffs. Es zeigte nämlich, dass mehrere Kandidaten parallel aktiviert werden
können. Das Zielwort wird erst sehr stark von seinen Mitbewerbern nahe des
Diskriminationspunkts unterschieden. Weiters zeigt dieses Modell im Gegensatz zu anderen,
wie z.B. TRACE, und ähnlich wie offensichtlich auch Menschen nur wenig Toleranz. Wie in
dem o.e. Experiment51, in dem z.B. ein Pseudowort wie „smob“, das mit einem echten Wort
wie „smog“ mit Ausnahme der Artikulationsstelle des letzten Konsonanten sehr gut
übereinstimmt, verwendet wurde, und das dann noch so konstruiert wurde, dass der Vokal mit
echten Wort übereinstimmt, aktiviert das Pseudowort die lexikalischen Repräsentation des
Worts „smog“ nicht sehr stark. D.h. das Netzwerk benötigt eine Menge an phonetischer
Details, um auf Wörter zuzugreifen – das entspricht auch dem Verhalten der Menschen.
Dieses Merkmal des Modells wird von den Autoren darauf zurückgeführt, dass die Inputs auf
eine realistische Art präsentiert werden, indem die Wörter in den Sprachstrom eingebettet
sind, und das Training des Netzwerks mit einer großen Zahl von ähnlichen phonologischen
Formen erfolgt. Das führt dazu, dass das Netzwerk in bezug auf die Klassifikation des Inputs
sehr intolerant ist. Aufgrund dieser Repräsentation der Wörter, in der sich ähnliche Elemente
in ihrer Repräsentation überlappen, ist der Wettbewerb zwischen ähnlichen Elementen ein
wichtiger Teil der Verarbeitung, denn die gleichzeitige Aktivierung von mehr als einem
Kandidaten führt zu Konflikten.
In ihren Arbeiten (s. Fn.50) präsentieren die Autoren eine Reihe von Experimenten, in denen
sie „cross-modal priming“ verwenden, mit denen sie zu zeigen versuchen, dass dieser
Wettbewerb die Größe des semantischen Primingeffekts verringert. Wenn ein Wort noch
ambig ist, z.B. „capt-„ (könnte „captain“ oder „captive“ sein), dann ist es nicht besonders
effektiv für das Priming von „ship“; erst relativ spät, nach dem erreichen des
Diskriminationspunktes, wird es effektvoll. Allerdings ist zu beachten, dass „capt-„ doch ein
gewisses Priming erzielt; d.h. man kann also schon vor dem Diskriminationspunkt eines
Wortes auf Bedeutung zugreifen, was eine Bahnung (Förderung) von semantisch in
Beziehung stehenden Wörter ermöglicht; da aber kein vollständiger Zugang erfolgt, ist das
Priming schwächer als nach dem Diskriminationspunkt.
51 Marslen-Wilson, W.D./Warren, P., 1994. Levels of perceptual representationand process in lexical access: Words, phonemes and features. Psychological Review 101: 653-675
26
Es wird auch argumentiert, dass das Ausmaß des Wettbewerbs zwischen den Wörtern von der
Kohärenz der Gruppe von Bewerbern abhängt. So werden die Kandidaten, die durch einen
bestimmten lautlichen Input aktiviert werden, notwendigerweise ähnlich klingen (s. „capt-
„ für „captain“ und „captive“), d.h. die Gruppe der Kandidaten ist kohärent. Daher kann das
Wiederholungspriming („repetition priming“) diese Vorassoziation der lexikalischen
Kandidaten nützen. Im Gegensatz dazu ist das durch das semantische Priming nicht möglich,
da mehrere mit einander nicht in Beziehung stehende Elemente aktiviert werden (die
Kandidaten bei „capt-„ beinhalten „ship“ und „prisoner“, die miteinander nicht in Beziehung
stehen) – d.h. sie sind inkohärent. Wenn je mehr Kandidaten in den inkohärenten Gruppen
auftreten, um so größer ist der Wettbewerb, wogegen in den kohärenten Gruppen die Zahl der
Kandidaten weniger wichtig ist und somit das Priming von der Größe der Kohorte weniger
beeinflusst wird. Daher finden sich in den Experimenten mit semantischen „cross-modal
priming“ deutlichere Wettbewerbseffekte als im Wiederholungspriming.
Zwar gibt es noch weitere Modelle, wie etwa SHORTLIST52 oder MERGE53, doch scheinen
die hier vorgestellten jene zu sein, die besonderen Einfluss auf die Entwicklung der
theoretischen Ansätze der Perzeption von gesprochener Sprache ausgeübt haben.
Abschließend wollen wir noch einmal kurz die besprochenen Modelle vergleichen. Wenn wir
davon ausgehen, was wir bei der Perzeption von gesprochener Sprache tun müssen, dann das
im Grunde genommen zwei Dinge: Wir müssen die Lautketten in Wörter segmentieren und
diese Wörter müssen wir auch erkennen. Die Menge an Gesprochenem, das wir verarbeitet
haben müssen, um die Repräsentation zu kontaktieren, bestimmt, wann der erste Kontakt
erfolgen kann. Dies kann bereits nach den ersten 10 ms erfolgen54. Dies wird bei Modellen,
die Silben für das Erkennen von möglichen Wortanfängen benützen, länger dauern. Die
verschiedenen Modelle heben auch hervor, wie die Repräsentationen mit dem Lexikon in
Kontakt treten. Im Kohortenmodell etwa wird er Beginn eines Wortes (die ersten 150ms) für
den ersten Kontakt verwendet. In anderen Modellen55 werden andere Teile eines Wortes wie
etwa die am stärksten betonte Silbe verwendet. Bei allen diesen Modellen, bei denen der erste
Kontakt verwendet wird, um eine Gruppe von lexikalischen Einträgen zu erzeugen, ist es
schwierig beim Auftreten eines Fehlers, diesen auch wieder zu korrigieren. Diese Problem hat
z.B. TRACE, wo es keinen unikalen Kontakt für ein jedes Wort gibt, nicht.
52 Norris, D., 1994. SHORTLIST: A connectionist model of continous speech recognition. Cognition 52: 189-23453 Norris, D./McQueen, J.M./Cutler, A., 2000. Merging information in speech recognition: Feedback is never necessary. Behavioral and Brain Sciences 23: 299-37054 Klatt, D.H., 1989. Review of selected models of speech perception. In: W.D. Marslen-Wilson (ed.), Lexical representation and process. Cambridge, MA: 169-22655 z.B. Grosjean, F./Gee, J.P., 1987. Prosodic structure and spoken word recognition. Cognition 25: 135-155
27
Das revidierte Kohortenmodell umgeht das Problem der Korrektur von fehlerhaften ersten
Kontakten, indem eher eine schrittweise Aktivierung der Kandidaten erlaubt wird denn eine
Alles-oder-Nichts-Aktivierung.
Eigentlich beinhalten alle Modelle des Erkennens von gesprochenen Wörtern ein Element des
Wettbewerbs zwischen dem Zielwort und seinen Nachbarn. Daher sollte auch das Priming
eines Wortes das Erkennen eines anderen mit denselben Anfangslauten verzögern56. Es stellte
sich heraus, dass bei einer auditiven lexikalischen Entscheidungsaufgabe bei zeitlichen
Verzögerungen von 1-5 Minuten zwischen dem Prime und dem Zielwort die Reaktionszeit für
ein einsilbiges Wort, dem ein Wort mit demselben Onset und Vokal voranging (z.B. „chat“
und „chap“), relativ zu einem nicht-geprimten Kontrollwort zunahm. Ähnliches zeigte sich
auch für mehrsilbige Wörter mit gemeinsamer ersten Silbe (z.B. „beacon“ und „beaker“).
Dieser Effekt war nur bei echten Wörtern zu beobachten – Pseudowortprimes ergaben keine
solche Inhibition. Somit verzögert das Priming von phonologischen Wettbewerbern
tatsächlich das folgende Erkennen von Elementen, aber der Effekt tritt nur auf, wenn andere
kurzfristige fazilisierende Effekte aufgrund von anderen Faktoren, wie die Verarbeitung
gemeinsamer sublexikalischer Konstituenten (Phoneme oder Reime) abgeklungen sind.
Schließlich verwenden wir auch noch andere Arten von Information, um gesprochene Sprache
zu verstehen. Auch normal hörende Personen können bis zu einem gewissen Grad das
Lippenlesen einsetzen. So sahen die Versuchspersonen ein Video57, auf dem jemand „ba“
sagte, aber sie hörten „ga“. Die Teilnehmer berichteten, „da“ gehört zu haben. Offensichtlich
vermengten sie die visuelle und auditive Information. Solche Untersuchungen weisen darauf
hin, dass die Sprachperzeption das gesamte perzeptuelle System in Anspruch nimmt und
verschiedene Informationsquellen nutzt.
56 Monsell, S./Hirsh, K.W., 1998. Competitor priming in spoken word recognition. J. of Experimental Psychology: Learning, Memory, and Cognition 24: 1495-152057 McGurk, H./MacDonald, J., 1976. Hearing lips and seeing voices. Nature 264: 746-748
28