Sprachperzeption - Universität Graz · Web viewBei der Perzeption von gesprochener Sprache geht es darum, wie wir die Laute der Sprache identifizieren und wie wir sie zu den entsprechenden

Sprachperzeption

Einleitendes

Bei der Perzeption von gesprochener Sprache geht es darum, wie wir die Laute der Sprache

identifizieren und wie wir sie zu den entsprechenden Wörtern verbinden, wobei wir bei der

Perzeption nicht unbedingt immer schrittweise vorgehen, wie dies die Linearität der Abfolge

der Laute es uns erscheinen lässt. So können wir, wenn wir z.B. Teile eines Wortes nicht

gehört haben, die fehlenden Laute ergänzen, d.h. wir verwenden unser Wissen über die

lautliche Form eines Wortes, um es zu verstehen. Dieses Thema des Effekts des Wissens auf

der Wortebene ist nicht nur ein wichtiges sondern durchaus auch kontroversielles.

Natürlich haben die Erkenntnisse über die Perzeption von gesprochener Sprache

entsprechende Konsequenzen für den Sprachunterricht, das Erlernen der Lese- und

Schreibfähigkeiten und nicht zuletzt auch für die Therapie entsprechender Störungen.

Erkennen gesprochener Sprache

Wie sehen nun die Repräsentationen aus, die wir für den Zugang zum mentalen Lexikon

verwenden? Wir können zwischen dem prälexikalischen Code, der die lautliche

Repräsentation darstellt und der vor der Identifizierung des Wortes verwendet wird, und dem

postlexikalischen Code, der die Information darstellt, die wir nach dem lexikalischen Zugang

besitzen, unterscheiden. Somit ist die Spezifizierung des prälexikalischen Codes ganz wichtig,

um das Erkennen von gesprochener Sprache zu verstehen.

1

Erkennen gesprochener Sprache

Die Perzeption von Gesprochenem ist insofern schwieriger als das Erkennen von

Geschriebenem als die Laute nur kurz präsent sind und außerdem die Laute bei der

Produktion in einander übergehen, was als Koartikulation bezeichnet wird (z.B. sind die

beiden anlautenden [k] in /kind/ und /kunst/ verschieden und zwar aufgrund der

nachfolgenden Vokale). Außerdem ist es nicht so einfach wie im Geschriebenem einzelne

Wörter im Sprechfluss zu segmentieren, dies zeigt sich sofort, wenn wir eine uns unbekannte

Sprache hören. Trotzdem haben wir im allgemeinen keine Probleme beim Erkennen von

Gesprochenem – sofern es sich um eine uns bekannte Sprache handelt. So hat sich gezeigt1,

dass wenn Abfolgen von Geräuschen gehört werden, z.B. ein Summen, ein Zischen, ein Ton

und ein Vokal, dass die Reihenfolge nur dann unterschieden werden kann, wenn

Abfolgegeschwindigkeit langsamer als 1,5 Geräusche pro Sekunde ist. Allerdings können wir

Gesprochenes mit einer Rate von 20 Phonemen/sek und manchmal auch mehr perzipieren. Im

Kontext können wir gesprochene Wörter 200ms nach ihrem Beginn identifizieren2. So hat

sich auch gezeigt3, dass Wörter in einem sinnvollen Kontext besser gegenüber

Hintergrundgeräuschen erkannt werden als Wörter ohne Kontext. Außerdem brauchen wir

fast zweimal so lange, um ein isoliertes Wort im Vergleich zu seinem Auftreten in einem Satz

zu erkennen4.

Wie wird nun Gesprochenes segmentiert?1 Warren, R.M./Obusek, C.J./Farmer, R.M./Warren, R.P., 1969. Auditory sequence: Confusion of patterns other than speech or music. Science 164: 586-5872 Marslen-Wilson, W.D., 1984. Spoken word recognition: A tutorial review. In H. Bouma/D.G. Bouwhis (eds.), Attention and performance X: Control of language processes. Hove, UK: 125-1503 Bruce, D.J., 1958. The effects of listeners’ anticipations in the intelligibility of heard speech. Language and Speech 1: 79-974 Lieberman, P., 1963. Some effects of semantic and grammatical context on the production and perception of speech. Language and Speech 6: 172-187

2

Wie wir bereits gehört haben, variieren die akustischen Eigenschaften der Phoneme mit dem

Kontext, in dem sie auftreten. So sind z.B. die „b“-Laute in „Ball“, „Bub“ und „Ebbe“ alle

akustisch verschieden, trotzdem sind wir uns einig, dass es jeweils um die Realisierung des

Phonems /b/ handelt. Wenn wir uns nun die Beziehung zwischen dem akustischen Signal und

dem dadurch repräsentierten Laut ansehen, so zeigt sich, dass diese Beziehung durchaus sehr

komplex ist. Diese Komplexität ergibt sich aufgrund von zwei Aspekten, die in jeder Theorie

der Lautperzeption beachtet werden müssen: das Problem der Invarianz und das Problem der

Segmentierung5. Das Problem der Invarianz bedeutet nicht anderes als dass dasselbe Phonem

je nach Kontext anders sein kann. Das Problem der Segmentierung bedeutet, dass die Laute in

einander übergehen und somit nicht einfach getrennt werden können.

Wir haben bereits das Phänomen der Koartikulation kenngelernt, d.h. dass bei der Produktion

eines Lautes unser Produktionsapparat bereits die Position für den nächsten Laut

einzunehmen beginnt. Die Koartikulation hat für den Sprecher den Vorteil, dass die

Produktion schneller und flüssiger ablaufen kann als wenn jedes Phonem einzeln und deutlich

artikuliert werden müsste. Für den Hörer hat die Koartikulation den Vorteil, dass die

Information über die Identität von phonetischen Segmenten über mehrere akustische

Segmente verteilt sein kann. Des weiteren versorgt uns diese Verteilung der Information auch

mit entsprechenden Informationen über die umgebenden Laute – ein Phänomen, das als

parallele Übertragung bezeichnet wird. So sind die b-Laute in „Ball“, „Bus“ und „Bild“ alle

akustisch leicht verschieden, was uns entsprechende Informationen über die folgenden Laute

bietet.

Das Problem der Segmentierung bedeutet, dass es nicht einfach ist, die einzelnen Laute in

einer Äußerung zu segmentieren, da sie ja in einander übergehen. Eine gewisse Ausnahme

bilden hier die Verschlusskonsonanten und wenn Pausen auftreten. Das „klassische“ Beispiel

aus dem Englischen : „I scream“ vs. „ice cream“ und aus dem Deutschen “schi(e)fliegen”.

Normal gesprochen klingen beide Ketten gleich. Wenn man sich die akustischen Segmente im

Spektrogramm ansieht, so lassen sie sich auch nicht so einfach auf den jeweiligen

phonetischen Segmenten abbilden.

5 Miller, J.L./Jusczyk, P.W., 1989. Seeking the neurobiological bases of speech perception. Cognition 33: 111-137

3

Eine Beschränkung beim Segmentieren von Gesprochenem besteht darin, dass wir das

Gehörte so zu segmentieren versuchen, dass jedes Segment ein mögliches Wort ist –

„possible-word constraint“. Gesprochenes wird nicht gerne so segmentiert, dass Teile von

Silben allein stehen bleiben und nicht an Wörter angehängt werden6. Jede Segmentierung, die

unmögliche Wörter, z.B. einen einzelnen Konsonanten, ergibt, wird zurückgewiesen: So wird

die Segmentierung in „fill a green bucket“ einer Segmentierung wie „filigree n bucket“

vorgezogen.

Kategoriale Perzeption

Zwar findet sich, wie wir gesehen haben, eine Menge an Variation im akustischen

„Aussehen“ der Phonem, trotzdem klassifizieren wird die einzelne Laute fast immer als das

eine oder andere Phonem. Dieses Phänomen wird als kategoriale Perzeption bezeichnet. Als

erste wiesen dies Liberman et al.7 nach: Sie erzeugten ein Kontinuum von synthetischen

Silben, bei denen sich die anlautenden Konsonanten im Artikulationsort unterschieden.

Obwohl es sich um ein Kontinuum handelte, ordneten die Versuchspersonen die Silben in drei

deutlich unterschiedenen Kategorien, nämlich /b/, /d/ und /g/.

Ein weiteres Beispiel für die kategoriale Perzeption ist die sog. „voice onset time“ (VOT):

Dabei handelt es sich um den Einsatz des Schwingens der Stimmlippen nach der Lösung des

Verschlusses von Plosiven, wobei dies bei stimmhaften Plosiven früher erfolgt als bei

stimmlosen. Somit unterscheiden sich z.B. /d/ und /t/ oder /b/ und /p/ in eben diesen

minimalen zeitlichen Verzögerungen. Nun kann man Silben synthetisieren, bei denen diese

zeitlichen Verzögerungen im Millisekundenbereich verändert wurden. Diese Veränderungen

erfolgten im Experiment8 in Schritten von 0.01 sek, woraus sich in dem gewählten

Zeitintervall 31 Silben ergaben, die sich nur in der VOT unterschieden. Diese Silben wurden

nun in zufälliger Abfolge den Versuchspersonen zur Identifizierung vorgespielt. Die

Ergebnisse (s. Abb. 1) zeigten, dass die Vpn. fast über das gesamte Kontinuum zu 100% in

ihrer Entscheidung ([b] oder [b]) übereinstimmten, nur an der Grenze gab es einige

Unterschiede. (Folie: /b/-/p/)

6 Norris, D./McQueen, J.M./Cutler, A./Butterfield, S., 1997. The possible-word constraint in the segmentation of continous speech. Cognitive Psychology 34: 191-2437 Liberman, A.M./Harris, K.S./Hoffman, H.S./Griffith, B.C., 1957. The discrimination of speech sounds within and across phoneme boundaries. J. of Experimental Psychology 53: 358-3688 Lisker, L./Abramson, A., 1970. The voicing dimension: Some experiments in comparative phonetics. Proceedings of the 6th International Congress of Phonetic Sciences, Prague 1967. Prague: 563-567

4

Es besteht auch die Möglichkeit diese Merkmalsdetektoren zu „ermüden“, was als selektive

Adaption bezeichnet wird: Wenn z.B. die Silbe „ba“ wiederholt dargeboten wird, dann lässt

die Sensibilität der Versuchspersonen für das Merkmal „stimmhaft“ bei /b/ nach und bei

einem direkt folgenden Test verschiebt sich die Grenze zwischen b/ und /p/ im Kontinuum in

Richtung /p/9. Obwohl also die Sprachlaute physikalisch kontinuierlich sein können, ist ihre

Perzeption kategorial.

Wichtig ist auch, dass die Grenzen nicht fix sind, sondern sensibel auf kontextuelle Faktoren

wie z.B. Sprechgeschwindigkeit reagieren können: So kann ein Plosiv mit einer absolut

gesehen kurzen VOT nicht als /b/, sondern als /p/ perzipiert werden, wenn das umgebende

Sprechen schnell genug ist10.

Aufgrund der o.a. Untersuchungen zur kategorialen Perzeption wurde zuerst angenommen,

dass die Hörer nicht in der Lage seien zwischen den leicht verschiedenen Exemplaren einer

Phonemkategorie zu unterscheiden. Das scheint allerdings nicht der Fall zu sein, denn es hat

sich gezeigt11, dass die Versuchspersonen schneller erkannten, dass zwei /ba/-Silben dieselben

waren, wenn die /b/-Laute identisch waren als wenn sie sich in ihren VOTs leicht

unterschieden. D.h. es besteht eine gewisse Sensibilität für die Unterschiede innerhalb von

Kategorien, was dazu geführt hat, dass die Position der kategorialen Perzeption von

Sprachlauten etwas in Frage gestellt wurde. Möglicherweise lassen sich viele bei der

Perzeption von gesprochener Sprache beobachteten Phänomene besser im Sinne einer

kontinuierlichen denn einer kategorialen Perzeption beschreiben. Obwohl unsere Erfahrung

dahin geht, dass die Identifikation von Sprachlauten kategorial erfolgt, ist die

Nachweisbarkeit, dass die frühe sensorische Verarbeitung tatsächlich kategorial ist, doch

etwas schwächer12, indem argumentiert wird, dass die schlechte Diskrimination innerhalb der

Kategorien nicht aufgrund der frühen Verarbeitung erfolgt, sondern aus dem Bias der

Versuchspersonen entsteht, zu sagen, dass Elemente derselben Kategorie identisch sind.

Trotzdem ist der Ansatz der kategorialen Perzeption weiterhin sehr populär.

Wie sieht der prälexikalische Code aus?

9 Eimas, P.D./Corbit, L., 1973. Selective adaptation of linguistic feature detectors. Cognitive Psychology 4: 99-10910 Summerfield, Q., 1981. Articulatory rate and perceptual constancy in phonetic perception. J. of Experimental Psychology: Human Perception and Performance 7: 1074-109511 Pisoni, D.B./Tash, J., 1974. Reaction times to comparisons within and across phonetic categories. Perception and Psychophysics 15: 285-29012 Massaro, D.W., 1987. Speech perception by ear and eye: A paradigm for psychological enquiry. Hillsdale, N.J.

5

Müssen wir zuerst die Phoneme identifizieren, bevor wir die gesprochenen Wörter erkennen?

Dazu zeigten Untersuchungen13, dass die Versuchspersonen bei der Reaktion auf gehörte

Elemente langsamer auf Phoneme reagierten als auf Silben. Was zum Vorschlag führte, dass

die Phonemidentifikation jener der Silbe nachfolgt. D.h. wir erkennen die einzelnen Wörter

nicht aufgrund der einzelnen Phoneme, sondern wir erkennen sie mit Hilfe von

grundlegenderen Einheiten wie der Silbe. Dieser Ansatz wurde allerdings auch in Frage

gestellt14: Bloß weil wir uns einer höheren Einheit bewusst werden, bedeutet das nicht, dass

diese auch zuerst verarbeitet wird.

Es gibt aber auch entsprechende experimentelle Hinweise, dass die Identifizierung der

einzelnen Phoneme keinesfalls abgeschlossen sein muss, um das entsprechende lexikalisch

Element zu aktivieren15: So ist es bei einer auditiven lexikalischen Entscheidungsaufgabe

schwieriger Pseudowörter, die aus Teilen von echten Wörtern aufgebaut sind, zu erkennen, als

solche, die aus Teilen von Pseudowörtern bestehen: So bilden z.B. „smog“ bzw. „smod“ die

Ausgangswörter; wenn nun in beiden Fällen der Endkonsonant abgeschnitten wird und durch

einen neuen /b/ ersetzt wird – was zu einem Pseudowort „smob“ führt – dann ist jene Version,

die von „smog“ abgeleitet ist, schwieriger als Pseudowort zu erkennen. Dies ist darauf

zurückzuführen, dass die koartikulatorische Information des Vokals eben mit einem echten

Wort übereinstimmt. Hätte nämlich die phonetische Repräsentation des Vokals noch vor dem

lexikalischen Zugriff zur Aktivierung des entsprechenden Phonems geführt, wäre die

koartikulatorische Information verlorengegangen und beide Arten von Pseudowörtern würden

gleich schwer erkennbar sein. Somit könnte auf die lexikalischen Repräsentationen direkt von

den akustischen Informationen im lautlichen Signal zugegriffen werden. Die

koartikulatorische Information der Vokale wird früh verwendet, um den folgenden

Konsonanten und damit das Wort zu identifizieren.

13 Savin, H.B./Bever, T.G., 1970. The non-perceptual reality of the phoneme. J. of Verbal learning and Verbal Behavior 9: 295-30214 Foss, D.J./Swinney, D.A., 1973. On the psychological reality of the phoneme: Perception, identification, and consciousness. J- of Verbal learning and Verbal Behavior 12: 246-25715 Marslen-Wilson, W.D./Warren, P., 1994. Levels of perceptual representation and process in lexical access: Words, phonemes, and features. Psychological Review 101: 653-675

6

Zusammenfassend lässt sich sagen, dass durchaus kontroversielle Ansichten darüber bestehen,

ob zuerst die Phoneme identifiziert sein müssen, bevor wir ein Wort erkennen. Die meisten

Daten weisen darauf hin, dass zwar die Phoneme während der Worterkennung verarbeitet

werden, wir aber nicht alle Phoneme identifiziert haben müssen, damit das Worterkennen

beginnen kann. Wenn wir nun auch noch die Untersuchungen zur Verarbeitung von

Schriftsprache einbeziehen, dann könnte es sich herausstellen, dass wir uns der Phoneme

weniger bewusst sind als etwa Silben. In diesem Zusammenhang wurden zwei

unterschiedliche Phonemrepräsentationen vorgeschlagen16: ein unbewusstes System, das beim

Erkennen von Gesprochenem und bei der Sprachproduktion agiert und ein bewusstes, das sich

im Rahmen der Entwicklung des Schreibens und Lesens entwickelt.

Die Rolle des Kontexts bei der Lauterkennung

Dies ist eine ganz wichtige Frage, denn es geht hier darum, ob das Erkennen von

Gesprochenem ein reiner „bottom-up“ Prozess ist oder ob auch „top-down“ Informationen

eine Rolle spielen. Lässt sich nachweisen, dass wir für das Erkennen eines bestimmten Lautes

das Wort, in dem er auftritt, oder sogar die Satzbedeutung eine Rolle spielt, dann hätten wir

nachgewiesen, dass einen top-down-Einfluss auf die Lauterkennung gibt. Damit wäre die

Sprachperzeption zumindest teilweise ein interaktiver Prozess, denn die Kenntnis des

gesamten Wortes beeinflusst die Perzeption seiner Teile, wobei natürlich die verschiedenen

Arten von Kontext auch verschiedene Einflüsse ausüben können.

Hinweise für den Einfluss des Kontexts kommen einmal aus der kategorialen Perzeption. Wie

wir gesehen haben, werden aufgrund der Werte der VOT Plosive der Kategorie „stimmhaft“

bzw. „stimmlos“ zugeordnet. Es hat sich gezeigt, dass der Wortkontext die Stelle der Grenze

zwischen den beiden beeinflusst17: Es wurde ein ambiges Phonem entsprechend seinem

Kontinuum (z.B. /k/ - /g/) variiert und in einen auslautenden Kontext gestellt, der ein

Wortende darstellte (z.B. „-iss“); dabei stellte sich heraus, dass der Kontext den Punkt

beeinflusste, an dem sich die Perzeption änderte; d.h. die Versuchspersonen kategorisierten

diesen Laut anders als sie es sonst tun würden, wenn das Ergebnis ein Wort ist, hier „kiss“ vs.

„giss“. Dies wird als „lexical identification shift“ bezeichnet. Dass der Wortkontext die

Kategorisierung von Lauten beeinflusst, zeigen weitere Untersuchungen18.

16 Morais, J./Kolinsky, R., 1994. Perception and awareness in phonological processing: The case of the phoneme. Cognition 50: 287-29717 Ganong, W.F., 1980. Phonetic categorization in auditory word perception. J. of Experimental Psychology: Human Perception and Performance 6: 110-12518 Connine, C.M./Clifton, C., 1987. Interactive use of of lexical information in speech perception. J. of Experimental Psychology: Human Perception and Performance 13: 291-319

7

Ein „klassisches“ Ergebnis psycholinguistischer Untersuchungen ist der sog. „phoneme

restoration effect“19. Die Versuchspersonen hörten Sätze wie „The state governors met with

their respective legi*latures convening in the capital city.“, wobei an der Stelle * ein 0,12 sek.

langer Teil, der dem /s/ entsprach, durch ein Räuspern ersetzt worden war. Den

Versuchspersonen fiel diese Ersetzung nicht auf, womit sie den fehlenden Laut zu ersetzen

schienen. Dieses Ergebnis ist insofern interessant als die Versuchspersonen sagten, dass das

ausgelassene Phonem selbst dann wieder eingesetzt wurde, wenn sie wussten, dass es fehlte.

Des weiteren konnten sie auch das Räuspern nicht korrekt lokalisieren. Dieser Effekt konnte

selbst dann noch beobachtet werden, wenn größere Teile ausgelassen wurden

(„le***latures“). Dies wurde so interpretiert, dass die Versuchspersonen semantische und

syntaktische Information weit über die einzelnen Phonem hinaus für die Verarbeitung von

Gesprochenem benützen. Dabei ist der ersetzende Ton nicht ausschlaggebend, es kann auch

ein Summen oder ein Ton sein, aber wenn es sich um eine kurze Stille handelt, dann wird das

leicht entdeckt und es gibt keinen Ersetzungseffekt.

Allerdings wurde in diesen Untersuchungen auch gezeigt, dass der Satzkontext das Erkennen

der Phoneme nicht beeinflusst und nur die postlexikalische Verarbeitung betrifft. Wenn man

sich die folgenden Beispiele ansieht:

(1) The travelers found horrible bats in the cavern/tavern when they visited it.

(2) The travelers found horrible food in the cavern/tavern when they visited it.

In (1) wird “cavern” durch den Satzkontext deutlich begünstigt und in (2) eben “tavern”.

Spielt nun der Satzkontext eine Rolle, dann sollte es in (1) eine stärkere

Phonemwiederherstellung für das getilgte Anfangsphonem für „cavern“ als für „tavern“

geben und umgekehrt in (2). Das war aber nicht der Fall. D.h. also, dass nur die Information

über einzelne Wörter die Identifizierung von Wörtern betrifft und die Information über die

Bedeutung eines Satzes betrifft offensichtlich spätere Stadien.

Möglicherweise übt der „top-down“-Kontext nur einen beschränkten Einfluss auf die

Lauterkennung aus.

19 Obusek, C.J./Warren, R.M., 1973. Relation of verbal transformation and the phoneme restoration effects. Cognitive Psychology 5: 97-107; Warren, R.M., 1970. Perceptual restoration of missing speech sounds. Science 167: 392-393

8

Der zeitliche Verlauf der Worterkennung

Wenn es um die Modellierung des Erkennens von gesprochenen Wörtern geht, dann gilt es

vorab einige Begriffe zu erklären20 (s. Abb. 2): Es werden drei Stadien des Worterkennens

angenommen: erster Kontakt („initial contact“) – lexikalische Auswahl (Selektion) („lexical

selection“) – Worterkennung („word recognition“)

Diese Stadien können sich auch überlappen, was sich entsprechend untersuchen lässt.

Die Worterkennung beginnt damit, dass eine Repräsentation des sensorischen Inputs in einen

ersten Kontakt mit dem Lexikon tritt (erster Kontakt). Wenn nun lexikalische Einträge mit der

bis jetzt vorhandenen Repräsentation überein stimmen, dann werden sie aktiviert. Diese

Aktivierung kann nun „ganz oder gar nicht“ sein (im ursprünglichen Kohortenmodell) oder

die relativen Aktivierungsstärken hängen von bestimmten Eigenschaften der Wörter ab (z.B.

Häufigkeit) oder die Wörter können auch in diesem Ausmaß aktiviert werden, in dem sie mit

den sensorischen Daten übereinstimmen (im neueren Kohortenmodell bzw. im

konnektionistischen TRACE-Modell).

In der Auswahlphase (Selektionsphase) nimmt die Aktivierung zu bis schließlich ein Eintrag

gewählt wird. Das Erkennen des Wortes ist der Endpunkt des Selektionsphase.

20 Frauenfelder, U.H./Tyler, L.K., 1987. The process of spoken word recognition: An introduction. Cognition 25: 1-20

9

erster Kontakt:über eine Repräsentation des sen-sorischen Inputs kommt es zu einem ersten Kontakt mit dem Lexikon

lexikalische Auswahl:der sensorische Input nimmt zu bis ein lexikalischer Eintrag ausgewählt wird

Worterkennung:das Wort wird erkannt; der Worterkennungspunkt liegt meist noch vor dem Hören des gesamten Wortes

Im einfachsten Fall stimmt der Punkt, an dem das Wort erkannt worden ist, mit seinem

Diskriminationspunkt („uniqueness point“) überein, das ist jener Punkt, an dem ein Wort

eindeutig von allen anderen Wörtern unterscheidbar wird, d.h. die analysierte Lautsequenz ist

nur für dieses Wort charakteristisch. Wie lässt sich nun dieser Punkt feststellen? Dazu können

sog. „gating“-Experimente21 verwendet werden. Bei diesen Untersuchungen hört der Proband

einen akustischen Input in kleinen, zeitlich getrennt aufeinanderfolgenden Teilen von ca. 50

ms. Die Aufgabe besteht nun darin, dass die Versuchsperson reagieren muss, sobald sie glaubt

das Wort erkannt zu haben. Dies könnte z.B. bei einem Wort wie „Freundschaft“ an jenem

Punkt erfolgen, an dem das Segment [] verarbeitet worden ist.

In manchen Fällen kann das Erkennen auch erst nach dem Diskriminationspunkt bzw. bei

besonders einschränkenden Kontexten auch schon vor dem Diskriminationspunkt erfolgen.

Jener Punkt, an dem dies erfolgt, wird als Isolationspunkt („isolation point“) bezeichnet. Dies

ist somit jener Punkt, an dem der Großteil der Hörer, eine Entscheidung bezüglich des

gehörten Wortes getroffen haben, obwohl sie noch nicht unbedingt ganz sicher sind22. In der

Folge wird nun der restliche Input beobachtet, bis zu jenem Punkt, an dem ein bestimmter

Grad an Sicherheit erreicht ist – dies ist dann der Worterkennungspunkt („recognition point“).

Nach der Worterkennung kommt es zum lexikalischen Zugriff („lexical access“), bei dem die

gesamte Information eines Wortes – also die phonologische, morphosyntaktische,

semantische und pragmatische – verfügbar wird. In der Folge kommt es nun zum eigentliche

Verstehensprozess, in dem die syntaktischen und semantischen Eigenschaften des Wortes in

die Satzrepräsentationen integriert werden.

Kontextuelle Effekte beim Worterkennen

Inwieweit lassen sich nun kontextuelle Effekte beim Erkennen von Wörtern nachweisen?

Dabei verstehen wir unter Kontext als jene Information, die nicht im unmittelbaren

sensorischen Signal enthalten ist. D.h. es geht um Information(en), die im vorausgegangen

Kontext enthalten waren und auch um jene, die aus anderen („höheren“) Bereichen (z.B.

lexikalischen, syntaktischen, semantischen und pragmatischen) mit einbezogen werden. Dabei

ist natürlich auch die jeweilige Analyseebene zu beachten, so kann der Kontext auf der

Wortebene die Identifikation von einzelnen Phonemen beeinflussen und der Kontext auf

Satzebene kann die Identifizierung von Wörtern beeinflussen.

21 Marslen-Wilson, W.D./Tyler, L.K., 1980. The temporal structure of spoken language understanding. Cognition 8: 1-7122 Tyler, L.K./Wessels, J., 1983. Quantifying contextual contributions to word recognition processes. Perception and Psychophysics 34: 409-420

10

Um solche Einflüsse nachzuweisen muss gezeigt werden, wie top-down Prozesse die

perzeptuelle Verarbeitung auf niedrigeren Ebenen beeinflussen können. Das ist natürlich nicht

unbedingt einfach, da nicht nur der spezifische Kontext in Betracht gezogen werden muss,

sondern auch zu beachten ist, auf welchen Ebenen bzw. Stadien der Verarbeitung dieser

Einfluss wirksam wird.

Grundsätzlich lassen sich im Zusammenhang mit der Untersuchung von kontextuellen

Einflüssen zwei Positionen feststellen: eine autonome und eine interaktionistische. Dies ist

natürlich eine etwas vereinfachende Darstellung, die die Endpunkte auf einem Kontinuum

von möglichen Modellen darstellt.

Dabei geht der autonome Ansatz davon aus, dass der Kontext vor dem Worterkennen keinen

Einfluss ausüben kann. Der Kontext trägt nur zu Bewertung und Integration der lexikalischen

Verarbeitung bei, aber nicht zum Prozess der Verarbeitung. Allerdings erlauben diese

Modelle eine Informationsfluss zwischen den einzelnen Wörtern im Lexikon, aber nicht vom

Lexikon zu den Prozessen auf niedrigeren Ebenen wie z.B. dem Phonemerkennen.

Die interaktiven Modelle dagegen erlauben die Interaktion verschiedenen Arten von

Informationen mit einander. So kann es ein Feedback von den späteren Verarbeitungsebenen

zu den früheren geben. So kann z.B. die Satzbedeutung oder auch der pragmatische Kontext

die Perzeption beeinflussen.

Modelle des Worterkennens

Wie bereits erwähnt, müssen wir, bevor wir auf das Lexikon zugreifen können, den Output

des Hörnervs in ein entsprechendes Format „übersetzen“. Dabei gingen die frühen Modelle

der Lauterkennung von einem „Schablonenabgleich“ („template matching“) aus. D.h. die

Ziele sind als Schablonen gespeichert und die Identifizierung erfolgt dann, wenn eine

entsprechende übereinstimmende Schablone gefunden wurde. Da aber im sprachlichen Signal

viel zu viel Variabilität vorhanden ist, bilden solche Schablonenmodelle keine plausible

Erklärung für die Laut- und Worterkennung.

11

Ein frühes Modell der Sprachperzeption war das Analyse-durch-Synthese-Modell23, das davon

ausging, dass wir gesprochene Sprache erkennen, indem wir uns auf die Handlungen

beziehen, die notwendig sind, um die Laute zu produzieren. Die wichtige Idee bei diesem

Modell bestand in der Annahme, dass wir beim Hören von Gesprochenem eine Folge von

Sprachlauten produzieren bis wir mit dem übereinstimmen, was wir hören. Diese Produktion

erfolgt nicht zufällig, sondern es wird eine erste Annäherung aufgrund der akustischen

Merkmale im Input erzeugt und danach wird versucht die Unterschiede zwischen dieser

Annäherung und dem Input zu verringern.

Eine Variante dieses Modells, die Motor-Theorie der Sprachwahrnehmung, schlägt vor, dass

unser interner Synthetisator den Sprechapparat abbildet und die motorischen Ausführungen

des Sprechers nachbildet und auf diese Weise die Bewegungen, die zu den entsprechenden

Lauten führen, nachvollzieht. Ein Nachweis für dieses Modell besteht darin, dass die

Artikulation der Laute auch eine ausgezeichnete Beschreibung der Laute darstellt: so werden

z.B. [t]-Laute aufgrund des alveolaren Verschlusses gebildet. Allerdings muss die

Spezifizierung der Laute ziemlich abstrakt sein, da auch stumme Personen Gesprochenes gut

verstehen können24 und wir können auch Gesprochenes verstehen, das wir nicht unbedingt

auch produzieren können, wie einen fremden Akzent – aber wir können versuchen das zu

imitieren.

Das Problem dieser Analyse-durch-Synthese Modellen besteht einmal darin, dass es nicht klar

ist, wie vom Produktionssystem erzeugten artikulatorischen hypothetischen Muster mit dem

gehörten Input verglichen werden kann, d.h. wie sehen die erstellten Formate aus, damit sie

vergleichbar werden. Des weiteren sind wir aber auch sehr gut beim Erkennen von deutlich

artikulierten Wörtern, die eher nicht in den Kontext passen, was darauf hinweist, dass das

Erkennen von Gesprochenem primär ein Prozess ist, der von der Analyse der Inputdaten her

gesteuert wird.

23 Halle, M./Stevens, K.N., 1962. Speech recognition: A model and a program for research. IRE Transactions of th Professional Group on Information Theory 8: 155-159; Liberman, A.M./Cooper, F.S./Shankweiler, D.P./Studdert-Kennedy, M., 1967. Perception of the speech code. Psychological Review 74: 431-46124 Lenneberg, E.H., 1962. Understanding language without ability to speak: A case report. J. of Abnormal and Social Psychology 65: 419-425

12

Allerdings sind – wie bereits oben erwähnt – in letzter Zeit wieder vermehrt Überlegungen zu

motorischen Theorien der Perzeption von Gesprochenem angestellt worden. Das Vergleichen

des auditiven Signals mit den motorischen Repräsentationen für die Produktion kann

tatsächlich eine Hilfe für die Kategorisierung des akustischen Signals darstellen. Dabei

kommt es zu Überlegungen, dass diese motorischen Repräsentationen einen privilegierten

Status in der Sprachperzeption haben und die Perzeption von Gesprochenem stellt eigentlich

die Perzeption von motorischen Gesten dar. Und zwar in dem Sinne, dass das Ziel der

Perzeption darin besteht, zu erkennen, welche Bewegungen des Vokaltrakts zu welchen

Lauten geführt haben und weniger die abstrakte Identifizierung der Laute selbst25. Die

Untersuchungsergebnisse von bildgebenden Verfahren zeigen eine Aktivierung der

motorischen Areale während der Perzeption von gesprochener Sprache26, wiewohl das noch

nicht bedeutet, dass die motorischen Areale eine kausale Rolle in der Sprachperzeption

spielen. Wenn auch solche Analyse-durch-Synthese Modelle nicht unbedingt eine

vollständige Erklärung der Sprachperzeption bieten können, scheint es doch so zu sein, dass

motorische Prozesse eine Rolle spielen könnten.

Spiegelneuronen: Neuronen im motorischen Kortex (aber nicht nur: s. a. G. angularis), die

nicht bei Durchführung einer spezifischen Handlung feuern, sondern auch bei der

Beobachtung der Durchführung dieser Handlung durch eine anderes Individuum. Nun gibt es

auch Spiegelneuronen, die auf auditive Reize reagieren (audiovisuelle Spiegelneuronen oder

Echo-Spiegelneuronen), was bedeuten könnte, das beim Hören von Sprachlauten eine

entsprechende motorische Repräsentation der Artikulationsbewegung aktiviert wird.

Prinzipiell können wir zwei Arten von Modellen für die Worterkennung unterscheiden. Das

Kohortenmodell („cohort model“) mit seiner bottom-up Verarbeitung und konnektionistische

Modelle, wie das TRACE Modell, die die interaktive Natur der Worterkennung betonen. Beim

Kohortenmodell können wir zwischen einer frühen und einer späteren Variante unterscheiden,

wobei die spätere eine Modifizierung darstellt, die zum Teil als Antwort auf das TRACE

Modell zu sehen ist.

25 Galantucci, B./Fowler, C.A./Turvey, .T., 2006. The motor theory of speech perception reviewed. Psychonomic Bulletin and Review 13: 361-377; Liberman, A.M./Whalen, D.H., 2000. On the relation of speech to language. Trends in Cognitives Sciences 4: 187-19626 Watkins, K.E./Paus, T., 2004. Modulation of motor excitability during speech perception: The role of Broca’s area. J. of Cognitive Neuroscience 16: 978-987

13

Kohortenmodell

Das Kohortenmodell wurde von Marslen-Wilson und Welsh27 entwickelt. Die zentrale

Überlegung bei diesem Modell besteht darin, dass wir, wenn wir gesprochene Sprache hören,

sozusagen eine „Kohorte“ von Lexemen aktivieren, die alle mit dem ersten Phonem des

gehörten Wortes beginnen. In der Folge, wenn weitere Phoneme identifiziert sind, werden

immer mehr Kandidaten aus der ursprünglich aktivierten Kohorte ausgeschieden, bis

schließlich nur mehr ein Lexem übrigbleibt. Damit ist die Worterkennung erfolgt. Wie bereits

erwähnt muss man zwischen einer früheren (Marslen-Wilson, 1984) und einer späteren

(Marslen-Wilson, 1989, 199028) Version unterscheiden, wobei die frühere mehr Interaktion

erlaubte, und die spätere eine autonomere Verarbeitung aufweist und das System der

Worterkennung besser mit nicht präzisen Wortanfängen umgehen kann. (Folie 3)

Dieses Modell besteht aus drei Verarbeitungsstufen. Im ersten Schritt, dem Zugangsstadium

(„access stage“), werden aufgrund der perzeptuellen Repräsentation Lexeme aktiviert, die als

mögliche Kandidaten für das jeweilige Wort in Frage kommen könnten – eine Kohorte. Der

nächste Schritt besteht in einem Auswahlverfahren („selection stage“), in dem nun ein

Element aus der Kohorte ausgewählt wird. Den Abschluss bildet ein Integrationsstadium

(„integration stage“), bei dem nun die syntaktischen und semantischen Eigenschaften des

Wortes genutzt werden, um es z.B. in die Repräsentation eines ganzen Satzes zu integrieren.

Die beiden ersten Schritte, Zugang und Auswahl, sind prälexikalisch und der dritte,

Integration ist postlexikalisch.

27 Marslen-Wilson, W.D./Welsh, A., 1978. Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology 10: 29-63; Marslen-Wilson, W.D., 1984. Spoken word recognition: A tutorial review. In: H. Bouma/D.G. Bouwhis (eds.), Attention and Performance X: Control of language processes. Hove, UK: 125-150; s.a. Marslen-Wilson, W.D., 1987. Functional parallelism in spoken word recognition. Cognition 25: 71-10228 Marslen-Wilson, W.D.(ed), 1989. Lexical representation and process. Cambridge, MA; Marslen-Wilson, W.D., 1990. Activation, competition, and frequency in lexical access. In: G.T.M. Altmann (ed.), Cognitive models of speech processing. Cambridge, MA: 148-172

14

Wenn wir also den Anfang eines Wortes hören, wird eine Kohorte von Wörtern aktiviert, die

denselben Anfang haben. In der Folge kommt es zu einer aktiven Eliminierung von

Kandidaten, wobei alle möglichen Mittel herangezogen werden, wie weitere phonologische

Information, aber auch – zumindest in der frühen Version – der semantische und syntaktische

Kontext. Die meiste Verarbeitungsaktivität tritt rund um den Diskriminationspunkt auf – also

dann wenn das Wort eindeutig von den anderen unterschieden werden kann.

Zu beachten ist auch, dass der Erkennungspunkt nicht unbedingt mit dem

Diskriminationspunkt übereinstimmen muss: So kann in einem entsprechenden

einschränkenden Satzkontext („Es ist verboten den Rasen zu be-!“) nach der frühen Version

des Modells an diesem Punkt der Kontext bereits ausreichen, um all anderen Elemente der

Kohorte auszuschließen. Dieser starke kontextuelle Einfluss kann natürlich auch zu Fehlern

führen, indem aus dem Kontext heraus ein anderes Wort erwartet wird als dann tatsächlich

produziert wird. Wenn nun die sensorische Information schlecht ist, dann kann der

Erkennungspunkt auch deutlich nach dem Diskriminationspunkt liegen. Am ehesten besteht

eine Übereinstimmung zwischen dem Diskriminationspunkt und dem Erkennungspunkt wohl

nur bei sehr deutlich gesprochenen Einzelwörtern.

Im überarbeiteten Modell29 wirkt sich der Einfluss des Kontexts nur mehr im

Integrationsstadium aus. In diesem Modell hat die bottom-up Verarbeitung Vorrang, d.h. der

Kontext kann nicht mehr die Elemente, aus denen die ursprünglichen Kohorte besteht,

einschränken – somit kann die Zahl der Kandidaten nicht schon vor dem

Diskriminationspunkt verringert werden. Diese Veränderung erfolgte aufgrund von

Ergebnissen von entsprechenden Experimenten. Gegenüber dem ursprünglichen Modell ist

nun das Ausscheiden von Wortkandidaten aus der Kohorte kein entweder – oder mehr. Dies

geht auf einen Einwand gegen das ursprüngliche Modell zurück: Was passiert, wenn der

Anfang eines Wortes nicht korrekt perzipiert werden kann? Das würde ja dazu führen, dass

das korrekte Element nicht in der Kohorte aufscheint. Allerdings ist es uns, wie wir alle selbst

beobachten können, möglich, in einem solchen Fall – zwar nicht immer, aber manchmal –

diese „Fehlerhaftigkeit“ zu korrigieren: Wenn wir etwa ein Wort wie /faze/ hören (z.B. in

einem Satz wie: „Sie gibt die Blumen in eine /faze/.“), dann kann es zwar sein, dass wir kurz

zögern, aber wir können das korrekte Wort doch identifizieren. Somit ist im revidierten

Modell auch der Grad der Überlappung wichtig, obwohl weiterhin die Wortanfänge für die

Erstellung der Kohorte eine besondere Rolle spielen.

29 z.B. Marslen-Wilson, W.D.(ed), 1989. Lexical representation and process. Cambridge, MA

15

Was passiert nun mit jenen Elemente der Kohorte, für die es keine weiteren positive

sensorische Hinweise gibt? Das Aktivierungsniveau dieser Kandidaten zerfällt langsam und

geht wieder auf das Ruheniveau zurück. Sollte in der Folge allerdings entsprechende positive

Informationen auftauchen, dann können sie sozusagen „wiederbelebt“ werden. D.h. der

Kontext dient nun nicht mehr der Auswahl von Vorschlägen für Kandidaten, sondern – wenn

man so will – der Abwahl. Die passenden Wortkandidaten werden nun auf einer höheren

Ebene in die Satzrepräsentation integriert. Zwar kann der Satzkontext die perzeptuellen

Hypothesen nicht außer Kraft setzen, sondern besitzt nur einen späteren Einfluss, wenn ein

Kandidat als die wahrscheinliche Wahl auftaucht.

Die Häufigkeit beeinflusst das Aktivierungsniveau der Kandidaten in den frühen Stadien des

lexikalischen Zugangs, indem die Aktivierungszunahme für hochfrequente Wörter größer ist

als für niederfrequente, wobei diese Frequenzeffekte in der Anfangskohorte relativ sind, d.h.

es besteht kein entweder – oder, sondern die Elemente variieren innerhalb eines

Aktivierungskontinuums. Auch die jüngste Version des Kohortenmodells30 betont den

direkten Zugang zu den lexikalischen Einträgen aufgrund der akustischen Analyse des

sprachlichen Signals.

In einer Anzahl von experimentellen Untersuchungen wurde versucht das Kohortenmodell zu

untermauern. So wurde in mehreren Untersuchungen die Technik des Schattensprechens

(„shadowing“) angewendet, um zu untersuchen, inwieweit Syntax und Semantik mit dem

Worterkennen interagieren. Bei diesen Aufgaben hören die Vpn. über Kopfhörer einen Text,

den sie so schnell wie möglich nachsprechen müssen. Dies gelingt manchen Sprechern so gut,

dass sie nur 250 ms hinter dem jeweiligen Textelement zurückliegen31.

In einer weiteren Untersuchung32 wurden in die Texte Fehler eingebaut, d.h. es gab entstellte

Laute, so dass manche Wörter falsch ausgesprochen wurden. Die Vpn. wurden auf diese

Fehler nicht aufmerksam gemacht, sondern sie sollten die Texte nur wiederholen. In ca. 50%

der Fälle wurden die Texte so wiedergegeben, als ob sie keine Fehler enthielten. D.h. es gab

sog. „flüssige Ersetzungen“, wie z.B. dass „travedy“ als „tragedy“ wiedergegeben wurde.

30 Marslen-Wilson, W.D./Warren, P., 1994. Levels of perceptual representation and process in lexical access: Words, phonemes, and features. Psychological Review 101: 653-67531 Marslen-Wilson, W., 1973. Linguistic structure and speech shadowing at very short latencies. Nature 244: 522-52332 Marslen-Wilson, W.D./Welsh, A., 1978. Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology 10: 29-63

16

In dieser Untersuchung gab es 3 Variablen, die von besonderem Interesse waren: (1) die

Größe des Unterschieds zwischen dem Zielwort und dem fehlerhaften Wort, gemessen in

distinktiven Merkmalen; (2) die lexikalische Beschränkung, die sich in der Zahl der

Kandidaten widerspiegelte, die an verschiedenen Positionen im Wort verfügbar sind; dies

erfolgte durch die Manipulation der Silbenposition, in der der Fehler auftrat (1. oder 3. Silbe);

(3) der Kontext, d.h. das betroffene Wort war eine wahrscheinliche oder eher

unwahrscheinliche Fortsetzung des Satzbeginns (z.B. stark einschränkender Kontext: „Still,

he wanted to smoke a cigarette.“, wenig einschränkend: „It was his misfortune that they were

stationary.“).

Die Ergebnisse zeigten, dass die meisten flüssigen Ersetzungen dann auftraten, wenn die

Unterschiede zum Zielwort nur gering waren, die Veränderung in der letzten Silbe auftrat und

das Wort aufgrund des Kontexts sehr stark voraussagbar war. Die meisten genauen

Wiedergaben traten bei größeren Abweichungen und bei eher wenig einschränkenden Kontext

auf. Diese Ergebnisse wurden so interpretiert, dass sie darauf hinweisen, dass das

unmittelbare Perzept das Ergebnis von bottom-up perzeptuellen Input und top-down

kontextuellen Beschränkungen ist. Solche Experimente mit dem Schattensprechen weisen

auch darauf hin, dass sowohl syntaktische als auch semantische Analysen fast unmittelbar mit

dem Hören beginnen und nicht erst nachdem ein ganzer Teilsatz gehört wurde33.

Bei der Perzeption von Wörtern achten wir nicht auf alle Teile des Wortes in gleicher Weise,

denn es scheint die erste Silbe für die Perzeption besonders wichtig zu sein. Dies zeigte sich

auch bei Aufgaben, bei denen auch falsche Aussprachen geachtet werden musste34. Dabei

hören die Vpn. Gesprochenes, in dem ein Laut verändert wurde (z.B. „boot“ zu „poot“) und

sie entdeckten diese Veränderungen. Wie auch bei den Aufgaben zum Schattensprechen sind

die Vpn. sensibler für Veränderungen am Beginn des Wortes.

So hat sich auch gezeigt, dass Teile von Wörtern beinahe genauso gut als Prime („priming“ =

assoziative Aktivierung) agieren können wie das gesamte Wort selbst35: So ist z.B. „capt-„ ein

fast gleich gutes Primewort für das Wort „ship“ wie das Wort „captain“ selbst. Dagegen

produzieren Reimfragmente von Wörtern kaum einen Primingeffekt, z.B. ergibt sich weder

bei „cattle“ noch bei „yattle“ (Pseudowort) ein Primingeffekt für „battle“36.

33 Marslen-Wilson, W.D., 1975- Sentence perception as an interactive parallel process. Science 189: 226-22834 Cole, R.A., 1973. Listening for mispronunciation: A measure of what we hear during speech. Perception and Psychophysics 13: 153-156; Cole, R.A./Jakimik, J., 1980. A model of speech perception. In R.A. Cole (ed), Perception and production of fluent speech. Hillsdale, NJ: 133-16335 Marslen-Wilson, W.D., 1987. Functional parallelism in spoken word recognition. Cognition 25: 71-102; Zwitserlood, P. 1989. The locus of the effects of sentential-semantic context in spoken-word processing. Cognition 32: 25-6436 Marslen-Wilson, W.D./Zwitserlood, P., 1989. Accessing spoken words: The importance of word onsets. J. of Experimental Psychology: Human Perception and Performance 15: 576-585

17

Auch die bereits erwähnten gating-Experimente wurden zur Untersuchung der

Worterkennung im Rahmen des Kohortenmodells herangezogen. In diesen Studien37 wurde

festgestellt, dass die Probanden ca. 333 ms benötigen, um ein einzelnes Wort zu

identifizieren, aber für ein Wort in einem entsprechenden Kontext nur 199 ms. Aber es zeigte

sich auch, dass die bis zum Erkennungspunkt aktivierten Kandidaten der Kohorte solche sind,

die mit der bis zu diesem Punkt erstellten perzeptuellen Repräsentation übereinstimmen –

aber nicht mit dem Kontext. Somit stellte sich heraus, dass die syntaktischen und

semantischen Beschränkungen durch den Kontext – zumindest am Beginn – nicht verhindern,

dass Wortkandidaten aktiviert werden, die mit dem sensorischen Input übereinstimmen aber

nicht mit dem Kontext. Somit scheint also der Satzkontext keine frühen Effekte aufzuweisen.

Obwohl offensichtlich der Kontext nicht in der Lage ist, die Erzeugung von Kandidaten zu

beeinflussen, so könnte er helfen, diese zu entfernen.

Mit Hilfe der Technik des „cross-modal priming“ wurde festgestellt, dass am Beginn eines

Wortes ein Priming von mit dem Zielwort nicht in Beziehung stehenden Wörtern möglich ist.

In dieser Untersuchung38 hörten die Versuchspersonen über Kopfhörer Sprache, während sie

gleichzeitig auf einen Computermonitor schauten, um eine lexikalische Entscheidungsaufgabe

durchzuführen. Auf diese Weise konnte die Beziehung zwischen dem Wort auf dem

Bildschirm und dem Gesprochenen sowie die zeitliche Relation zwischen den beiden

systematisch variiert werden. Für den Test wurde Holländisch als Sprache verwendet. Die

Versuchspersonen hörten unterschiedliche Teile eines Wortes wie „kapitein“ („Kapitän“),

bevor ein mit diesem in Beziehung stehendes Wort oder ein Kontrollwort auf dem Bildschirm

erschien. Beim Hören von „kap“ kann das Wort noch nicht diskriminiert werden, denn es

könnte auch z.B. der Beginn von „Kapital“ sein. In dieser Untersuchung wurde nun

festgestellt, dass es in einer solchen Situation zu einer Aktivierung von Wörtern kommt, die

mit beiden möglichen Wörtern („Kapitän“ und „Kapital“) in Beziehung stehen, nämlich

„Schiff“ und „Geld“. Wenn das ganze Wort gehört worden war, war aber nur mehr eine

Aktivierung der mit diesem Wort in Verbindung stehenden möglich.

37 Grosjean, F., 1980. Spoken word recogniton processes and the gating paradigm. Perception and Psychophysics 28: 267-283; Tyler, L.K./Wessels, J., 1983. Quantifying contextual contributions to word-recognition processes. Perception and Psychophysics 34: 409-420; Tyler, L.K., 1984. The structure of the initial cohort. Perception and Psychophysics 36: 415-42738 Zwitserlood, P. 1989. The locus of the effects of sentential-semantic context in spoken-word processing. Cognition 32: 25-64

18

Es zeigte sich auch, dass die häufigeren Kandidaten einen stärkeren Primingeffekt auslösten

als die weniger häufige. Ein weiteres wichtiges Ergebnis stellte die Erkenntnis dar, dass ein

entsprechender Kontext keinen Effekt in der frühen Phase des Wortes ausübte. Ein

Kontexteffekt wurde aber erst nach dem Isolationspunkt des Wortes festgestellt. Der Kontext

steigert das Aktivierungsniveau des spezifischen Wortes in Bezug zu den anderen

Kandidaten. Diese Ergebnisse weisen darauf hin, dass der Satzkontext einen eher späten

Einfluss auf das Verstehen eines Wortes und seine Integration in die Syntax und Semantik des

Satzes hat.

Zwar bildete den Ausgangspunkt der Überlegungen zum Kohortenmodelle auch die

Annahme, dass die Bewertung der einzelnen Wortkonkurrenten parallel erfolgt, so dass die

Zahl der Konkurrenten (die Größe der Kohorte) keinen Einfluss auf das Erkennen des

Zielitems ausüben sollte. Allerdings zeigt sich in Experimenten39, dass die Struktur der

Nachbarschaft der jeweiligen Wörter die Geschwindigkeit und die Genauigkeit das auditive

Worterkennen bei einer Reihe von Aufgaben beeinflusst, einschließlich der Identifizierung

der Wörter und auditiver lexikalischer Entscheidungsaufgaben. So spielt die Anzahl und

Charakteristika (wie Häufigkeit) der Konkurrenten eines Wortes eine wichtige Rolle. So sind

wir weniger gut in der Lage hochfrequente Wörter, die viele hochfrequente Nachbarn haben,

zu identifizieren als Wörter mit weniger Nachbarn oder niederfrequenten Nachbarn. Es wird

angenommen, dass die Zahl der Konkurrenten (die „neighbourhood density“) die

Entscheidung beeinflusst. Wörter mit vielen Nachbarn benötigen mehr Zeit für die

Identifikation und es werden wegen der Konkurrenten mehr Fehler produziert.

Wie bereits erwähnt beeinflusst die Häufigkeit der Kandidaten in einer Kohorte die

Worterkennung. So stellte Marslen-Wilson (199040) fest, dass die Zeit, die benötigt wird, um

ein Wort zu erkennen, auch von der Frequenz der Kandidaten in der Kohorte abhängt. So

dauert es bei hochfrequenten Konkurrenten länger bis der Isolationspunkt erreicht ist. Am

längsten dauert es bei einem niederfrequenten Zielwort und hochfrequenten Konkurrenten.

Die zweitlängste Zeit wird gebraucht, wenn sowohl das Zielwort als auch die Konkurrenten

niederfrequent sind. Die kürzeste Zeit benötigen hochfrequente Zielwörter neben

niederfrequenten Konkurrenten.

39 z.B. Luce, P.A./Pisoni, D.B./Goldinger, S.D., 1990. Similarity neighbourhoods of spoken words. In G.T.M. Altmann (ed.), Cognitive models of speech processing. Cambridge, MA: 122-14740 Marslen-Wilson, W.D., 1990. Activation, competition, and frequency inlexical access. In: Altmann, G.T.M. (ed.), Cognitive models of speech processing: Psycholinguistic and computational perspectives. Cambridg, MA: 148-172

19

Aber nicht nur die phonologischen Nachbarn können das auditive Erkennen beeinflussen,

sondern auch die orthographischen Nachbarn haben einen unterstützenden Einfluss auf das

Erkennen. So wurde festgestellt41, dass gesprochene Wörter, die viele visuell ähnliche

Nachbarn haben, schneller identifiziert werden als jene mit wenigen Nachbarn. Dies erfolgt

wahrscheinlich deswegen, weil irgendwo im System die sublexikalischen Einheiten bzw.

Worteinheiten – oder beide – für die jeweiligen Modalitäten in Verbindung stehen.

Zusammenfassend kann man sagen, dass nach dem späteren Modell der Kontext nun nur

mehr das Integrationsstadium beeinflusst und dass die einzelnen Elemente ein

Aktivierungsniveau aufweisen, dass proportional zur Übereinstimmung des jeweiligen

Elements mit dem akustischen Input ist, so dass eine Anzahl von Kandidaten parallel weiter

analysiert werden können. Das führt auch zu einem schrittweisen Zerfall der Kandidaten und

nicht zur unmittelbaren Eliminierung, was auch dafür sorgt, dass das System leichter Fehler

korrigieren kann. Ein Problem bleibt allerdings bestehen: Dieses Modell hängt stark vom

Wissen um den Beginn eines Wortes ab, obwohl es keinen expliziten Mechanismus besitzt,

der den Beginn der Wörter erkennt.

Das TRACE-Modell

Dieses Modell ist ein äußerst interaktives Modelle des Worterkennens42, das sich aus einem

interaktiven Aktivierungsmodell für das Erkennen von Buchstaben und visuellen Wörtern

herleitet43. Es werden hier nur die wichtigsten Merkmale des Modells besprochen, aber nicht

die mathematischen Details. Das wohl wichtigste Merkmal des TRACE-Modells besteht in

der Betonung der Rolle der top-down Verarbeitung auf das Erkennen von Wörtern. D.h. der

lexikalische Kontext kann die akustische perzeptuelle Verarbeitung direkt unterstützen und

Information, die über der Wortebene besteht, kann die Wortverarbeitung direkt beeinflussen.

41 Ziegler, J.C./Muneaux, M./Grainger, J., 2003. Neighbourhood effects in auditory word recognition : Phonological competition and orthographic facilitation. J. of memory and Language 48: 779-79342 McClelland, J.L./Elman, J.L., 1986. The TRACE model of speech perception. Cognitive Psychology 18: 1-8643 McClelland, J.L./Rumelhart, D.E., 1981. An interactive activation model of context effects in letter perception: Part 1. An account of the basic findings. Psychological Review 88: 375-407

20

Da TRACE ein konnektionistisches Modell ist, besteht es aus vielen einfachen

Verarbeitungseinheiten die mit einander verbunden sind. Diese Einheiten sind in drei Ebenen

angeordnet: Ausgehend von einer frühen perzeptuellen Verarbeitung der akustischen

Merkmale besteht a) eine Ebene von Inputeinheiten, die phonologische Merkmale darstellen,

die b) wiederum mit Phonemen in Verbindung stehen und mit diesen sind c) mit den

Outputeinheiten verbunden, die die Wörter repräsentieren. Die Inputeinheiten werden

„aktiviert“ (mit Energie versorgt) und diese Aktivierung breitet sich über die Verbindungen

aus, was am Ende dazu führt, dass nur ein Element aktiviert bleibt, das dann jenes Wort ist,

dass das Netzwerk erkannt hat. Die einzelnen Einheiten stehen über exzitatorische und

inhibitorische Verbindungen mit einander in Kontakt. Außerdem sind die Verbindungen

zwischen den Ebenen bidirektional, d.h. sie gehen in beide Richtungen, bottom-up und top-

down. Die inhibitorischen Verbindungen auf einer Ebene sorgen dafür, dass sobald eine

Einheit aktiviert ist, eine Inhibition der anderen Einheiten erfolgt. Dieses Mechanismus

betont das Konzept des Wettbewerbs zwischen den Einheiten auf derselben Ebene.

Diese Modell wird als eine Computersimulation implementiert und die Durchläufe der

Simulationen werden mit dem verglichen, was bei der normalen Verarbeitung von

Gesprochenem passiert. So zeigt dieses Modell z.B. wie das lexikalische Wissen die

Perzeption unterstützen kann: Wenn etwa im Input nicht deutlich unterscheidbar war, ob es

sich um ein /g/ oder /k/ handelte, aber das Folgende mit /-raft/ übereinstimmt, dann wird vom

Modell /k/ erkannt.

Die kategoriale Perzeption ergibt sich in diesem Modell als Konsequenz der Inhibitionen auf

der Phonemebene. Auch beim TRACE Modell spielen die Laute am Wortanfang eine

wichtige Rolle und sie tragen auch mehr zur Aktivierung von Wortknoten bei als die Laute

am Wortende.

TRACE kann mit den kontextuellen Einflüssen auf die Perzeption von gesprochener Sprache

sehr gut umgehen. Es kann auch mit einem gewissen Maß an akustischer Variabilität gut

umgehen und es kann auch die o.e. Effekte, wie Koartikulation oder „phoneme restoration“,

gut erklären. Ebenso ist dieses Modell recht gut beim Auffinden von Wortgrenzen und auch

undeutlicher („noisy“) Input wird gut verarbeitet. Wie bei allen Computermodellen ist

TRACE ganz explizit.

Allerdings besteht auch die Meinung, dass dieses Modell zu „mächtig“ ist – also zu viel kann,

denn es könnte ein jedes Untersuchungsergebnis zur Sprachperzeption erklären.

21

In einer Untersuchung44 mussten die englischsprachigen Hörer eine Entscheidung über ein

Phonem durchführen, wobei der tatsächlich gehörte Laut auf einem Kontinuum zwischen /l/

und /r/ lag. Diese Laute traten in folgenden Kontexte auf: /s_i/, /p_i/ und /t_i/. Dabei

begünstigt der Kontext /s_i/ die Identifizierung eines /l/, da es ein Anzahl von englischen

Wörtern gibt, die mit /sli-/ beginnen, aber keine mit /sri-/. Der Kontext /t_i/ begünstigt /tri-/

aber nicht /tli-/ und der Kontext /p_i/ begünstigt beide Phoneme in etwa gleich stark. Die

Ergebnisse zeigten, dass der Kontext die Leistungen beeinflusst und zwar so, dass die Hörer

das ambige Phonem eher als /l/ im Kontext /s_i/ klassifizierten und als /r/ im Kontext /t_i/.

Das Verhalten der Versuchspersonen unterschied sich aber von dem des TRACE Modells: Im

Modell hat der Kontext dann den größten Einfluss, wenn das sprachliche Signal am

mehrdeutigsten ist und er hat weniger Effekt, wenn das Signal weniger ambig ist. Bei den

Versuchspersonen waren die Effekte des Kontexts in bezug zur Ambiguität aber konstant, d.h.

der Grad der Mehrdeutigkeit des sprachlichen Signals begünstigt keine Kontexteffekte.

44 Massaro, D.W., 1989. Testing between the TRACE model and the fuzzy logical model of speech perception. Cognitive Psychology 21: 398-421

22

Das Hauptproblem des TRACE Netzwerks liegt darin, dass es auf der Überlegung beruht,

dass top-down Information in den Erkennungsprozess „eindringt“. Das Ausmaß des

Einflusses des Kontexts auf den Prozess des Erkennens gesprochener Sprache wird durchaus

kontroversiell diskutiert. Es gibt auch Untersuchungen45, die darauf hinwiesen, dass der

Kontext nur bei perzeptuell undeutlichen Stimuli einen Einfluss ausübt. Mit einer weiteren

Untersuchung46 wurde versucht die interaktiven Effekte nachzuweisen. Dabei ging es darum,

dass „eingebildete“ Phoneme, die aufgrund der lexikalischen top-down Verarbeitung

entstanden waren, die Koartikulation beeinflussen können, d.h. auf der grundlegendsten

Analyseebene operieren können – wie das eben von TRACE vorausgesagt wird. Den

Ausgangspunkt bildeten Wortpaaren wie „English dates/gates“ oder „copious dates/gates“,

wobei der Anfangslaut des zweiten Wortes auf einem Kontinuum zwischen /d/ und /g/ lag,

beeinflussen koartikulatorische Effekte des letzten Lauts des ersten Worts den ersten Laut des

zweiten Worts. Die Hörer sind diesen Effekten gegenüber sehr sensibel: dieser Effekt wird als

„compensation for co-articulation“ bezeichnet. D.h. es ist eher wahrscheinlich, dass das

ambige Phonem als /d/ identifiziert wird, wenn es einem // folgt („English“) und eher als /g/,

wenn es einem /s/ folgt („copious“). Somit sollten die Hörer „English dates“ und „copious

gates“ hören. In dieser Untersuchung wurde nun gezeigt, dass dieser Kompensationseffekt

auch dann auftrat, wenn der letzte Laut von „English“ und „copious“ durch einen Laut, der in

der Mitte zwischen /s/ und // lag, ersetzt worden war.

45 McQueen, J., 1991. The influence of the lexicon on phonetic categorisation: Stimulus quality and word-final ambiguity. J: of Experimental Psychology: Human Perception and Performance 17: 433-443; Norris, D., 1994. Shortlist: A connectionist model of contious speech recognition. Cognition 52: 189-23446 Elman, J.L./McClelland, J.L., 1988. Cognitive penetration of the mechanisms of perception: Compensation for coarticulation of lexically restored phonemes. J. of Memory and Language 27: 143-165

23

Dieses Ergebnis scheint eher ein interaktives Modell denn ein autonomes zu unterstützen. Das

Lexikon scheint also einen prälexikalischen Effekt zu beeinflussen. Allerdings ist es nicht

unbedingt notwendig diese Wahl des Anlautes des zweiten Worts auf den

Kompensationseffekt zurückzuführen. So haben konnektionistische Simulation, die strikt

bottom up arbeiten, gezeigt, dass sie den Unterschied zwischen /g/ nach /s/ nach // lernen

können; d.h. es bestehen Wahrscheinlichkeiten nach denen bestimmte Phoneme mit einander

auftreten können (Phonotaktik). In einer entsprechenden Untersuchung47 wurde gezeigt, dass

diese sequentiellen Abhängigkeiten in der Perzeption von gesprochener Sprache genutzt

werden. Es wurden diese Kompensationseffekte für die Koartikulation bei der

Kategorisierung von Verschlusskonsonanten, wenn ihnen ein ambiger frikativer Laut am

Ende eines Pseudoworts folgte, festgestellt. So besteht etwa in der Phonemabfolge eines

Pseudoworts wie „der?“ eine Bevorzugung eines /s/ im Auslaut, wogegen die Sequenz „nai?“

ein // bevorzugt – tatsächlich waren die Laute zwischen diesen beiden. Diesen

Pseudowörtern folgte ein Wort, dass mit einem Verschlusskonsonanten begann, der auf dem

Kontinuum von /t/ zu /k/ lag – also von „tapes“ bis „capes“. Die Identifizierung des

Verschlusskonsonanten wurde vom vorausgehenden ambigen Frikativ unterschiedlich

beeinflusst, je nach dem Pseudowortkontext des Frikativ. Da aber das vorausgehende Wort

ein Pseudowort war, konnte der Einfluss nicht über das lexikalische Wissen erfolgen. Da aber

die Kompensation doch erfolgte, weist dies auf den Einfluss des Wissens über die Abfolge

von einzelnen Phonemen hin.

In einem Überblick über die Literatur bezüglich des Einflusses des Kontexts auf die

Perzeption von gesprochener Sprache wird wie folgt zusammengefasst48: Es wird davon

ausgegangen, dass ein Feedback in der Sprachperzeption nicht (niemals – „never“) notwendig

ist. Tatsächlich – so wird argumentiert – behindert top-down Feedback das Erkennen. Das

Feedback kann die Genauigkeit der Verarbeitung nicht verbessern – es kann das Entdecken

von Fehlern aufheben und somit die Genauigkeit verringern – es kann die Verarbeitung nur

beschleunigen. Das erfolgt über einen Austausch von Geschwindigkeit gegenüber

Genauigkeit. Die Crux an der ganzen Sache – den Überlegungen, ob es nun einen Einfluss des

lexikalischen Kontexts auf die phonematischen Entscheidungen gibt – besteht eben darin,

dass es sich immer im Aufgaben handelt, bei denen Entscheidungen über Laute getroffen

werden müssen, wie z.B. beim Phonemmonitoring, der „phoneme restoration“ oder der

Kategorisierung.

47 Pitt, M.A./McQueen, J.M., 1998. Is compensation for coarticulation mediated by the lexicon? J. of memory and Language 39: 347-37048 Norris, D./McQueen, J.M./Cutler, A., 2000. Merging information in speech recognition: Feedback is never necessary. Behavioral and Brain Sciences 23: 299-370

24

Neuere Modelle

Neuere Netzwerke verwenden sogenannte „rekurrente Verbindungen“ („recurrent

connections“) von einer versteckten Ebene, um Informationen über die früheren Zustände des

Netzwerks zu speichern49. Damit kann in diesen Netzwerken auch Information über die Zeit

gespeichert werden, womit sich eine plausiblere Darstellung der zeitlichen Natur der

Verarbeitung von Sprache ergibt als das etwa durch ein Modell wie TRACE erfolgte, wo es

fixe zeitliche Einheiten gab, was auch zu Problemen mit den Variationen in der

Sprechgeschwindigkeit führte. (Folie 4)

Das Kohortenmodell wurde erweitert50, um den Prozess abzubilden, der zwischen

phonologischer und lexikalischer Information vermittelt. Es wurde ein konnektionistisches

Modell entwickelt, das die verteilte („distributed“) Natur der lexikalischen Repräsentationen

betont, was bedeutet, dass die Information über ein jedes Wort über eine große Anzahl von

Verarbeitungseinheiten verteilt ist. Ein weiterer Punkt, in dem sich dieses Modell von anderen

konnektionistischen Modellen unterscheidet, ist, dass die Information über das Gesprochene

auf niederen Ebenen – repräsentiert durch phonetische Merkmale – direkt auf die

lexikalischen Formen abgebildet wird. Es sind keine zusätzlichen Ebenen der phonologischen

Verarbeitung involviert, obwohl es eine zusätzliche Schicht von versteckten Einheiten gibt,

die zwischen dem Merkmalsinput und den semantischen und phonologischen Outputebenen

vermitteln.

49 Elman, J.L., 1990. Finding structure in time. Cognitive Science 14: 179-21150 Gaskell, M.G./Marslen-Wilson, W.D., 1997. Integrating form and meaning: A distributed model of speech perception. Language and Cognitive Processes 12: 613-656; Gaskell, M.G./Marslen-Wilson, W.D., 1998. Mechanisms of phonological inference in speech perception. J. of Experimental Psychology: Human Perception and Performance 24: 280-398; Gaskell, M.G./Marslen-Wilson, W.D., 2002. Representation and competition in the perception of spoken words. Cognitive Psychology 45: 220-266

25

Mit diesem Modell wurden einige wichtige Aspekte der Verarbeitung von Gesprochenem

simuliert. So ergibt dieses Modell eine gute Darstellung des zeitlichen Verlaufs des

lexikalischen Zugriffs. Es zeigte nämlich, dass mehrere Kandidaten parallel aktiviert werden

können. Das Zielwort wird erst sehr stark von seinen Mitbewerbern nahe des

Diskriminationspunkts unterschieden. Weiters zeigt dieses Modell im Gegensatz zu anderen,

wie z.B. TRACE, und ähnlich wie offensichtlich auch Menschen nur wenig Toleranz. Wie in

dem o.e. Experiment51, in dem z.B. ein Pseudowort wie „smob“, das mit einem echten Wort

wie „smog“ mit Ausnahme der Artikulationsstelle des letzten Konsonanten sehr gut

übereinstimmt, verwendet wurde, und das dann noch so konstruiert wurde, dass der Vokal mit

echten Wort übereinstimmt, aktiviert das Pseudowort die lexikalischen Repräsentation des

Worts „smog“ nicht sehr stark. D.h. das Netzwerk benötigt eine Menge an phonetischer

Details, um auf Wörter zuzugreifen – das entspricht auch dem Verhalten der Menschen.

Dieses Merkmal des Modells wird von den Autoren darauf zurückgeführt, dass die Inputs auf

eine realistische Art präsentiert werden, indem die Wörter in den Sprachstrom eingebettet

sind, und das Training des Netzwerks mit einer großen Zahl von ähnlichen phonologischen

Formen erfolgt. Das führt dazu, dass das Netzwerk in bezug auf die Klassifikation des Inputs

sehr intolerant ist. Aufgrund dieser Repräsentation der Wörter, in der sich ähnliche Elemente

in ihrer Repräsentation überlappen, ist der Wettbewerb zwischen ähnlichen Elementen ein

wichtiger Teil der Verarbeitung, denn die gleichzeitige Aktivierung von mehr als einem

Kandidaten führt zu Konflikten.

In ihren Arbeiten (s. Fn.50) präsentieren die Autoren eine Reihe von Experimenten, in denen

sie „cross-modal priming“ verwenden, mit denen sie zu zeigen versuchen, dass dieser

Wettbewerb die Größe des semantischen Primingeffekts verringert. Wenn ein Wort noch

ambig ist, z.B. „capt-„ (könnte „captain“ oder „captive“ sein), dann ist es nicht besonders

effektiv für das Priming von „ship“; erst relativ spät, nach dem erreichen des

Diskriminationspunktes, wird es effektvoll. Allerdings ist zu beachten, dass „capt-„ doch ein

gewisses Priming erzielt; d.h. man kann also schon vor dem Diskriminationspunkt eines

Wortes auf Bedeutung zugreifen, was eine Bahnung (Förderung) von semantisch in

Beziehung stehenden Wörter ermöglicht; da aber kein vollständiger Zugang erfolgt, ist das

Priming schwächer als nach dem Diskriminationspunkt.

51 Marslen-Wilson, W.D./Warren, P., 1994. Levels of perceptual representationand process in lexical access: Words, phonemes and features. Psychological Review 101: 653-675

26

Es wird auch argumentiert, dass das Ausmaß des Wettbewerbs zwischen den Wörtern von der

Kohärenz der Gruppe von Bewerbern abhängt. So werden die Kandidaten, die durch einen

bestimmten lautlichen Input aktiviert werden, notwendigerweise ähnlich klingen (s. „capt-

„ für „captain“ und „captive“), d.h. die Gruppe der Kandidaten ist kohärent. Daher kann das

Wiederholungspriming („repetition priming“) diese Vorassoziation der lexikalischen

Kandidaten nützen. Im Gegensatz dazu ist das durch das semantische Priming nicht möglich,

da mehrere mit einander nicht in Beziehung stehende Elemente aktiviert werden (die

Kandidaten bei „capt-„ beinhalten „ship“ und „prisoner“, die miteinander nicht in Beziehung

stehen) – d.h. sie sind inkohärent. Wenn je mehr Kandidaten in den inkohärenten Gruppen

auftreten, um so größer ist der Wettbewerb, wogegen in den kohärenten Gruppen die Zahl der

Kandidaten weniger wichtig ist und somit das Priming von der Größe der Kohorte weniger

beeinflusst wird. Daher finden sich in den Experimenten mit semantischen „cross-modal

priming“ deutlichere Wettbewerbseffekte als im Wiederholungspriming.

Zwar gibt es noch weitere Modelle, wie etwa SHORTLIST52 oder MERGE53, doch scheinen

die hier vorgestellten jene zu sein, die besonderen Einfluss auf die Entwicklung der

theoretischen Ansätze der Perzeption von gesprochener Sprache ausgeübt haben.

Abschließend wollen wir noch einmal kurz die besprochenen Modelle vergleichen. Wenn wir

davon ausgehen, was wir bei der Perzeption von gesprochener Sprache tun müssen, dann das

im Grunde genommen zwei Dinge: Wir müssen die Lautketten in Wörter segmentieren und

diese Wörter müssen wir auch erkennen. Die Menge an Gesprochenem, das wir verarbeitet

haben müssen, um die Repräsentation zu kontaktieren, bestimmt, wann der erste Kontakt

erfolgen kann. Dies kann bereits nach den ersten 10 ms erfolgen54. Dies wird bei Modellen,

die Silben für das Erkennen von möglichen Wortanfängen benützen, länger dauern. Die

verschiedenen Modelle heben auch hervor, wie die Repräsentationen mit dem Lexikon in

Kontakt treten. Im Kohortenmodell etwa wird er Beginn eines Wortes (die ersten 150ms) für

den ersten Kontakt verwendet. In anderen Modellen55 werden andere Teile eines Wortes wie

etwa die am stärksten betonte Silbe verwendet. Bei allen diesen Modellen, bei denen der erste

Kontakt verwendet wird, um eine Gruppe von lexikalischen Einträgen zu erzeugen, ist es

schwierig beim Auftreten eines Fehlers, diesen auch wieder zu korrigieren. Diese Problem hat

z.B. TRACE, wo es keinen unikalen Kontakt für ein jedes Wort gibt, nicht.

52 Norris, D., 1994. SHORTLIST: A connectionist model of continous speech recognition. Cognition 52: 189-23453 Norris, D./McQueen, J.M./Cutler, A., 2000. Merging information in speech recognition: Feedback is never necessary. Behavioral and Brain Sciences 23: 299-37054 Klatt, D.H., 1989. Review of selected models of speech perception. In: W.D. Marslen-Wilson (ed.), Lexical representation and process. Cambridge, MA: 169-22655 z.B. Grosjean, F./Gee, J.P., 1987. Prosodic structure and spoken word recognition. Cognition 25: 135-155

27

Das revidierte Kohortenmodell umgeht das Problem der Korrektur von fehlerhaften ersten

Kontakten, indem eher eine schrittweise Aktivierung der Kandidaten erlaubt wird denn eine

Alles-oder-Nichts-Aktivierung.

Eigentlich beinhalten alle Modelle des Erkennens von gesprochenen Wörtern ein Element des

Wettbewerbs zwischen dem Zielwort und seinen Nachbarn. Daher sollte auch das Priming

eines Wortes das Erkennen eines anderen mit denselben Anfangslauten verzögern56. Es stellte

sich heraus, dass bei einer auditiven lexikalischen Entscheidungsaufgabe bei zeitlichen

Verzögerungen von 1-5 Minuten zwischen dem Prime und dem Zielwort die Reaktionszeit für

ein einsilbiges Wort, dem ein Wort mit demselben Onset und Vokal voranging (z.B. „chat“

und „chap“), relativ zu einem nicht-geprimten Kontrollwort zunahm. Ähnliches zeigte sich

auch für mehrsilbige Wörter mit gemeinsamer ersten Silbe (z.B. „beacon“ und „beaker“).

Dieser Effekt war nur bei echten Wörtern zu beobachten – Pseudowortprimes ergaben keine

solche Inhibition. Somit verzögert das Priming von phonologischen Wettbewerbern

tatsächlich das folgende Erkennen von Elementen, aber der Effekt tritt nur auf, wenn andere

kurzfristige fazilisierende Effekte aufgrund von anderen Faktoren, wie die Verarbeitung

gemeinsamer sublexikalischer Konstituenten (Phoneme oder Reime) abgeklungen sind.

Schließlich verwenden wir auch noch andere Arten von Information, um gesprochene Sprache

zu verstehen. Auch normal hörende Personen können bis zu einem gewissen Grad das

Lippenlesen einsetzen. So sahen die Versuchspersonen ein Video57, auf dem jemand „ba“

sagte, aber sie hörten „ga“. Die Teilnehmer berichteten, „da“ gehört zu haben. Offensichtlich

vermengten sie die visuelle und auditive Information. Solche Untersuchungen weisen darauf

hin, dass die Sprachperzeption das gesamte perzeptuelle System in Anspruch nimmt und

verschiedene Informationsquellen nutzt.

56 Monsell, S./Hirsh, K.W., 1998. Competitor priming in spoken word recognition. J. of Experimental Psychology: Learning, Memory, and Cognition 24: 1495-152057 McGurk, H./MacDonald, J., 1976. Hearing lips and seeing voices. Nature 264: 746-748

28

Documents

Sprachperzeption - Universität Graz · Web viewBei der Perzeption von gesprochener Sprache geht es darum, wie wir die Laute der Sprache identifizieren und wie wir sie zu den entsprechenden