1
Einführung in die Psycholinguistik (I)
1.0 Einleitendes
Die Verwendung von Sprache im Sprechen und Hören sowie im Lesen und Schreiben ist uns
allen so geläufig und selbstverständlich, daß wir kaum darüber nachdenken, was eigentlich
unseren tagtäglichen sprachlichen Handlungen zugrunde liegt. Was passiert nun alles, was
sind die Voraussetzungen, wenn wir Sprechen, Verstehen, Lesen oder Schreiben? Nun, wir
müssen einmal mit der entsprechenden biologischen „Hardware“ ausgestattet sein, d.h. wir
benötigen unser Gehirn, um den Inhalt unserer Aussagen festzulegen (und auch um die
Aussagen anderer zu verstehen). Wir benötigen einen entsprechenden Artikulationsapparat,
um die jeweiligen Laute zu produzieren, wobei diese Produktionen ebenfalls vom Gehirn
gesteuert werden. Während unserer Entwicklung als Kinder erwerben wir die Sprache
/Sprachen unserer Umgebung, mit denen wir dann mit unseren Mitmenschen kommunizieren.
Im Laufe des weiteren Lebens können noch weitere Sprachen dazukommen. Schließlich kann
es auch vorkommen, daß wir uns versprechen, z.B. daß wir statt „beeidet“ „beeidigt“ sagen.
Die Verwendung der Sprache kann aber auch durch Krankheiten oder Unfälle deutlich
erschwert oder gestört sein. Gerade in solchen Fällen können wir feststellen, wie komplex die
Vorgänge sind, die für das Sprechen, Verstehen, Lesen und Schreiben, aber auch das Erinnern
von Sprache, notwendig sind.
Mit den psychologischen Prozessen, die bei all dem hier nur ganz allgemein und oberflächlich
aufgezählten sprachlichen Verhalten ablaufen, beschäftigt sich nun die Psycholinguistik.
Eine sehr anschauliche Darstellung der Bereiche, mit denen sich die Psycholinguistik
beschäftigt, gibt das folgende Diagramm1:
2
„sprechende Sprache Versprecher Sprachentwicklungs-
Menschenaffen“ der störungen u.
8-14 Jährigen -verzögerungen
Die Kreise stellen sozusagen zentrale Bereiche der psycholinguistischen Untersuchungen dar,
aber an den Überlappungen läßt sich erkennen, daß die einzelnen Aspekte keine in sich
abgeschlossenen Bereiche darstellen, sondern daß zwischen ihnen Übergänge bestehen.
Im folgenden nun eine kurze Zusammenfassung der einzelnen Bereiche und ihrer
Beziehungen zu einander:
Tierische Kommunikation: Viele Tiere besitzen ausgeklügelt Kommunikationssysteme, die
die verschiedensten Formen haben können. So verwenden Affen unterschiedliche Schreie, um
ihre Artgenossen vor verschiedenen Gefahren zu warnen. Oder die verschiedenen Tanzmuster
der Bienen, wenn sie den anderen Bienen im Stock die Lage der Futterquelle mitteilen wollen.
Andere Insekten wiederum kommunizieren mittels chemischer Botenstoffe.
Den Übergang von den tierischen Kommunikationsformen zum Hauptmittel der menschlichen
Kommunikation – der Sprache – bilden die
„Sprechende Menschenaffen“: Hier geht es um die Sprachexperimente, die mit
Menschenaffen durchgeführt wurden und werden. Dabei wurde versucht ihnen
1 S. Aitchison, J., 1976. The Articulate Mammal. An Introduction to Psycholinguistics. London. Die
3
Gebärdensprache beizubringen bzw. mit Hilfe von Symbolen auf einer Tastatur
(Lexigrammen) die Kommunikation zu entwickeln. (Genaueres s. entsprechenden Abschnitt!)
L1-Erwerb: In diesem Bereich geht es um den kindlichen Spracherwerb, wobei der
Erstsprache(n)erwerb den zentralen Untersuchungsbereich bildet. Den Übergangsbereich zur
Sprache der Erwachsenen bildet die
Sprache der 8-14 Jährigen: Da der L1-Erwerb mit dem Schuleintritt noch nicht
abgeschlossen ist, stellt auch die weitere Sprachentwicklung im Laufe der Schuljahre einen
Untersuchungsbereich dar. Ein zentrales Thema dabei bildet natürlich der Erwerb und die
Benutzung des Schriftsystems im Schreiben und Lesen.
Normale Erwachsenensprache: Untersuchungsbereiche stellen die Produktion und das
Verstehen von Sprache dar, d.h. es geht darum, welche Prozesse sowohl der
Sprachproduktion als auch der Perzeption und den Verständnis von Sprache zugrunde liegen.
Einen Übergangsbereich zu den Sprachstörungen bilden die sogenannten
Versprecher: Es geht um die Untersuchung der Ursachen und Prozesse, die dazu geführt
haben, daß jemand z.B. „Pestollazigymnasium“ (statt „Pestallozi-„) oder
„Unachtmerksamkeit“ (statt „Unachtsamkeit“) produziert.
Dysphasien: Die Sprach- und Sprechstörungen von Erwachsenen und die
Sprachentwicklungsverzögerungen und Sprachentwicklungsstörungen der Kinder bilden den
Untersuchungsbereich. Dabei stellen die Sprachstörungen (Aphasien), die nach Hirnläsionen
bei Erwachsenen auftreten, einen Untersuchungsschwerpunkt dar. Einen weiteren
Schwerpunkt bilden die kindlichen Sprachstörungen.
Die Psycholinguistik befaßt sich also mit den psychologischen Prozessen beim Produzieren,
beim Verstehen, beim Erwerb (L1/L2) von Sprache und bei der Störung der „normalen“
Sprachfunktionen, aber auch mit der Interaktion der Sprache mit anderen psychologischen
Systemen. (Hier einfügen: Neurolinguistik! ev. a. Kognitive Linguistik!)
ursprünglichen 4 Kreise wurden um die Ellipse (L2) erweitert.
4
Wie schon angedeutet, laufen die sprachlichen Prozesse normalerweise so automatisch ab, so
daß es für ihre Untersuchung notwendig ist, sehr genaue und sorgfältige Experimente
durchzuführen. Nicht zuletzt daher bestehen auch zwischen der Psycholinguistik und
Bereichen der Psychologie, wie etwa der Neuropsychologie oder der Kognitiven Psychologie,
enge Beziehungen. Auch in der Psycholinguistik werden Daten aus Experimenten und
Beobachtungen verwendet, um entsprechende Modelle über die Vorgänge bei der
Verwendung von Sprache zu erstellen.
An dieser Stelle sollte vielleicht auch einmal die Verwendung der verschiedenen Begriffe wie
„Daten“, „Theorie“, „Hypothese“ und „Modell“ kurz beschrieben werden. Die Daten ergeben
sich aus den Ergebnissen von Experimenten, von Fallstudien oder Gruppenstudien von
Personen mit Sprachstörungen und auch aus Beobachtungen darüber, wie Sprache
funktioniert. Diese Daten müssen dann „erklärt“, d.h. interpretiert werden. Daraus kann sich
eine Theorie entwickeln, d.h. eine allgemeine Erklärung darüber, wie etwas funktioniert. Ein
Modell dagegen ist spezifischer; so ist etwa der Versuch Sprachverarbeitung am PC zu
simulieren ein Modell für Prozesse, die aus allgemeineren Theorien abgeleitet werden. Eine
Hypothese ist eine spezifische Annahme, die überprüft werden kann. Wenn nun ein
entsprechendes Experiment die Hypothese bestätigt, so ergibt sich daraus eine Unterstützung
für die jeweilige Theorie aufgrund der die Hypothese formuliert wurde. Wird hingegen die
Hypothese nicht bestätigt, dann wird die Theorie zu modifizieren sein.
1.1 Historisches
Im allgemeinen wird der Beginn der Psycholinguistik auf eine Tagung in Cornell, USA, im
Sommer 1951 und der Verwendung des Wortes „psycholinguistics“ im Buch2 über diese
Konferenz zurückgeführt. Aber wir können sicher sein, daß dieser Zugang zur Untersuchung
der Sprache schon früher verwendet worden war. So finden wir in bereits im 19.Jhdt. eine
5
bemerkenswert „modern“ anmutende Untersuchung zu Versprechern3. Einen entscheidenden
Entwicklungsschub erhielt die Psycholinguistik rund um die Entwicklung der sogenannten
„generativen Transformationsgrammatik“ durch den amerikanischen Linguisten Noam
Chomsky4 und auch durch seine Besprechung des Buches „Verbal Behavior“ von B. F.
Skinner5.
Wie der Name „Psycholinguistik“ schon sagt, hat sie ihre Wurzeln den zwei Disziplinen
Psychologie und Linguistik; wobei in den frühen und mittleren 60ern vor allem der Versuch
die Verarbeitung von Sprache mit der generativen Transformationsgrammatik in Beziehung
zu bringen, im Mittelpunkt der Entwicklung stand.
Die dominierende Tradition in der Psychologie war zu dieser Zeit der Behaviorismus, der die
Beziehung zwischen „input“ (Stimulus) und „output“ (Response) hervorhob, und wie
Konditionierung und Verstärkung diese Beziehungen herstellen. Da also für die Behavioristen
der einzige Untersuchungsbereich der Psychologie das Verhalten war, und Sprache eben auch
Verhalten darstellt, sollte auch der Erwerb der Sprache und ihre Verwendung über
Konditionierung und Verstärkung erklärt werden. Die wohl konsequenteste Darstellung dazu
ist das o.e. Buch von Skinner.
Eine Veränderung dieser Sichtweise ergab sich nicht zuletzt auch aus der wohl mehr als
kritischen Besprechung von Skinners Buch durch Chomsky. Dabei handelt es sich um den
ungewöhnliche Fall, bei dem eine Buchbesprechung einflußreicher wurde als das Buch selbst.
Darin wies Chomsky darauf hin, daß der Behaviorismus nicht in der Lage ist, sich mit der
natürlichen Sprache in adäquater Weise auseinanderzusetzen. Er sprach sich dafür aus, daß
eine neue linguistische Theorie, die „Transformationsgrammatik“, sowohl die der Sprache
zugrundeliegenden Strukturen als auch das Wissen der Menschen um ihre Sprache erklären
2 Osgood,C.E./Sebeok,T.A. (eds.), 1954. Psycholinguistics: A survey of theory and research problems. (pp.93-101): Bloomington [Reprint 1965] 3 Meringer,R./Mayer,K., 1895. Versprechen und Verlesen: Eine Psychologisch-Linguistische Studie. Stuttgart 4 Chomsky,Noam, 1957. „Syntactic Structures“. The Hague; ders. 1959. Review of „Verbal Behavior“ by B.F. Skinner. Language 35: 26-58; ders. 1965. Aspects of the theory of syntax. Cambridge,MA.
6
könnte. In der Folge kam es geradezu zu einem „psycholinguistischen Boom“, im Laufe
dessen versucht wurde, die Konsequenzen aus diesen Überlegungen zu untersuchen. Zwar
waren die in diesem Rahmen durchgeführten Tests nur teilweise erfolgreich, aber es zeigte
sich, daß die Linguistik ihren Teil zum Wissen über Sprache, ihre Verarbeitung und auch zum
kindlichen Spracherwerb beitragen kann.
In den 70ern wurde die Psycholinguistik sehr stark in den „Mainstream“ der kognitiven
Psychologie integriert. Von großer Bedeutung war dabei die „Computermetapher“, deren
zentrale Annahme darin bestand (und besteht6), daß auch die sprachlichen Aufgaben und
Leistungen in entsprechenden (Fluß-)Diagrammen dargestellt werden können, wie andere
komplexe Aufgaben auch, bevor daraus ein entsprechendes Computerprogramm entsteht.
Solche informationsverarbeitende Ansätze der kognitiven Verarbeitung betrachten die
Kognition wie einen Computer (vgl. dazu Fn. 6)), in dem der „Input“, wie z.B. Sprache oder
auch Gesehenes, mit Hilfe bestimmter Regeln in eine symbolische Repräsentation „übersetzt“
wird, um danach – wieder nach bestimmten Regeln – weiter verarbeitet zu werden. Diese
Metapher hat sicherlich starken Einfluß auf die moderne Psycholinguistik ausgeübt, da die
meisten Modelle der Sprachverarbeitung nicht nur verschiedene Ebenen der Verarbeitung
annehmen, sondern auch entsprechende Regeln und Prozesse, die festlegen, was zwischen den
Ebenen passiert.
In den letzten 20 Jahren hat sich ein weiterer Ansatz entwickelt, der häufig als
„Konnektionismus“ bezeichnet wird. Dieser konnektionistische Ansatz (auch „parallel
distributed processing“ (PDP) oder „neuronale Netze“) wurde zu einem wichtigen Konzept in
den verschiedenen Bereichen der Psycholinguistik – so in der Verarbeitung von Sprache
ebenso wie im Erstsprach(en)erwerb. Diese konnektionistischen Netzwerke besitzen viele,
sehr einfache neuronen-ähnliche Einheiten („Knoten“), die vielfach miteinander verknüpft
5 Skinner,B.F., 1957. Verbal behavior. New York 6 Zur Rolle und Struktur der Computermetapher und anderen Systemmetaphern im Rahmen der Kognitionswissenschaft: Strohner,H., 1995. Kognitive Systeme. Opladen
7
sind. Das Lernen und schließlich das Verhalten eines Organismus – also auch das sprachliche
– entwickelt sich aufgrund der Interaktionen zwischen diesen einfachen Einheiten.7
Nicht nur in den konnektionistischen Modellen, sondern auch in vielen anderen, spielt der
Begriff der „Aktivierung“ eine große Rolle. Dabei handelt es sich um eine sich ständig
verändernde Größe bzw. Eigenschaft in der Beziehung zwischen verschiedenen Elementen.
Diese Aktivierung kann sich auch „ausbreiten“, und zwar von einem Punkt in einem
Netzwerk zu anderen – etwa so wie elektrischer Strom in den Schaltkreisen. Als Illustration
soll ein sprachliches Beispiel dienen: Wenn wir ein Wort wie „singen“ hören, so können –
vorausgesetzt es gibt ein zu diesem Wort gehörendes Element – andere Elemente, die mit dem
gehörten z.B. in einer Bedeutungsbeziehung stehen („Lied“), oder lautlich ähnlich sind
(„ringen“) ebenfalls ein gewisses – geringes – Maß an Aktivierung aufweisen. Dagegen wird
ein in keiner Beziehung stehendes Wort („Haus“) kaum eine Aktivierung aufweisen. Im
allgemeinen besteht Einigkeit darüber, daß unser Gehirn so etwas wie Aktivierung benützt,
und daß das Ausmaß der Aktivierung von bestimmten Elementen die Aktivierung von
ähnlichen Elementen beeinflußt.
2 Allgemeine biologische Grundlagen
Bevor wir näher auf die einzelnen Bereiche eingehen, wollen wir uns kurz und überblicksartig
mit den biologischen Grundlagen für die Sprache beschäftigen. Den zentralen Aspekt dieser
Darstellung bildet der neurospychologische und neurophysiologische Anteil an der Sprache
und weniger die Anatomie und Physiologie der Sprech- und Hörorgane. Diese
Schwerpunktsetzung erfolgt aber nicht deswegen, weil die Anatomie und Physiologie der
beim Sprechen und Hören beteiligten Organe eine untergeordnete Rolle in Hinblick auf die
biologischen Grundlagen der Sprache spielen, sondern weil dieser Bereich auch im Rahmen
7 Sehr gute Einführungen: Bechtel,W./Abrahamsen,A., 1991. Connectionismand the mind. Oxford; Quinlan,P.T., 1991. Connectionism and psychology. New York; Konnektionismus in de kognitiven Psychologie: Ellis,R./Humphreys,G.W., 1999. Connectionist psychology: A text with readings. Hove, UK.
8
der Phonetik ausführlich behandelt wird. Trotzdem soll zum besseren Verständnis des später
Folgenden an dieser Stelle ganz kurz ein Einblick der Anatomie und Funktion der Sprech-
und Hörorgane geboten werden.
2.1 Sprechorgane
Wie schon der Name sagt, sind die Sprechorgane jene Organe, die beim Sprechen, d.h. bei
Erzeugen von Lautsprache, mitwirken. Dies ist allerdings nicht ihre einzige Funktion, sondern
sie sind auch für so lebenswichtige Funktionen wie Atmung und Nahrungsaufnahme
zuständig.
Am Sprechen sind schematisch gesehen beteiligt: die Lunge, die Luftröhre (Trachea), der
Kehlkopf (Larynx) mit den Stimmlippen (Stimmbändern8), der Rachen (Pharynx) und
schließlich der Mundraum und der Nasenraum (Oralraum und Nasalraum). (s. Abb. 1)
Laute sind Schallwellen und daher benötigen sie eine Quelle, die sie mit der nötigen (Schall-)
Energie versorgt. Dies erfolgt durch die Lunge, die einen Luftstrom in Bewegung setzt. Die
Lunge liegt in einem Hohlraum im Oberkörper (Thoraxhöhle). Dieser Hohlraum wird vorne
und seitlich vom Brustbein und von den Rippen begrenzt, hinten vom Rückgrat und unten
vom Zwerchfell ( einer muskulöse Scheidewand zwischen Brust- und Bauchhöhle mit zwei
kuppelförmigen Auswölbungen in den Brustraum). Dieser so umgrenzte Bereich ist auch
unter der Bezeichnung Brustkorb bekannt. Die Atmung (Respiration), deren primäre
Aufgaben die Zufuhr des Sauerstoffs aus der Luft und der Abtransport des Abfallprodukts
Kohlendioxid ist, ist das Ergebnis der Bewegungen von Brustkorb und Zwerchfell.
Bevor wir zu sprechen beginnen, müssen wir einatmen. Dies erfolgt aufgrund von neuronalen
Signalen aus dem Atemzentrum im Stammhirn, die bewirken, daß sich die Muskulatur des
Brustkorbs zusammenzieht. Dabei sorgen vor allem die Zwischenrippenmuskel
(Interkostalmuskel) dafür, daß sich die Rippen nach oben und außen bewegen, und das
9
Zwerchfell zieht sich zusammen, was eine Abflachung der Wölbungen bewirkt. Durch diese
Vergrößerung des Brustraums erfolgt eine Dehnung der Lungen und die Luft kann durch die
Luftröhre einströmen (Einatmung). Das Ausatmen erfolgt nun passiv, indem das Zwerchfell
bzw. die Rippenmuskulatur erschlafft.
Bei der Atmung können wir zwischen einer Ruheatmung und einer Sprechatmung9
unterscheiden:
Wird weder gesprochen noch gesungen (Ruheatmung), ist das Einatmen ein Vorgang, der
durch beteiligte Muskulatur (s.o.) den Brustkorb vergrößert und damit die Lunge erweitert,
und das Einströmen der Luft ermöglicht. Die Ausatmung erfolgt passiv, da durch das
Erschlaffen der Muskel die Lunge wieder ihren Ruhezustand einnimmt. Dabei sind die Phasen
des Aus- und Einatmens in etwa gleich lang.
Das Atmen beim Sprechen unterscheidet sich deutlich von jenem in Ruhe, denn die Phase des
Ausatmens ist gegenüber jener des Einatmens deutlich verlängert, da für das Sprechen ein
entsprechend langes Ausatmen notwendig ist. Dies erfolgt durch stärkeres Einatmen, einem
aktiven Ausatmen (d.h. die schon beim Einatmen aktiven Muskeln sorgen dafür, daß der
Brustraum nur langsam wieder in die Ausgangslage zurückkehrt) und es wird nicht nur soweit
ausgeatmet wie bei der Ruheatmung, wo ca. 1 Liter Luft in der Lunge verbleibt, sondern der
Brustraum wird noch weiter verengt.
Den wichtigsten Teil für die Erzeugung von Sprachlauten stellt der Vokaltrakt dar.
(Entsprechend einer Analogie zu Musikinstrumenten wird er auch als Ansatzrohr bezeichnet.)
Der Vokaltrakt (das Ansatzrohr) beginnt mit der Stimmritze (Glottis, die Öffnung zwischen
8 Stimmbänder ist eigentlich eine nicht ganz exakte Bezeichnung für alle schwingenden Strukturen (= Stimmlippen), die allerdings häufig verwendet wird. 9 Genau genommen Sprech- und Singatmung, weil die Veränderungen nicht nur für das Sprechen, sondern besonders für das Singen kennzeichnend sind.
10
den Stimmlippen) und besteht weiters aus dem Rachen10 und dem Mund- und Nasenraum. (s.
Abb. 2: Sprechwerkzeuge)
Wenn wir nun sprechen, so wird die aus der Lunge kommende Luft (pulmonale Luft) durch
die im Vokaltrakt vorhandenen Organe in Schwingungen versetzt. Die wichtigste
Schwingungsquelle für die Sprachlaute stellt der Kehlkopf mit den Stimmlippen dar.
Aufgrund von komplexen Wechselwirkungen zwischen den Kehlkopfmuskeln können die
Stimmbänder ihre Länge, Breite, Höhe, Spannung, Elastizität und Dicke verändern, wobei
diese Veränderungen beim Sprechen mit hoher Geschwindigkeit erfolgen. Diese
Veränderungen haben auch Auswirkungen auf das akustische Aussehen der jeweiligen Laute.
Der wohl wichtigste Aspekt besteht in der Erzeugung von hörbaren Schwingungen. So
entsteht ein summender Laut – ein stimmhafter Laut – wenn die Stimmritze einen engen Spalt
bildet und die Stimmlippen dabei schwingen. Diesen Zustand finden wir bei allen Vokalen
und bei (stimmhaften) Konsonanten (z.B.. [b], [z], [m]). (Diese Schwingungen lassen sich
sogar spüren, indem man den Daumen und Zeigefinger an die beiden Seiten des Kehlkopfes
legt und abwechselnd (stimmhaft) [zzzzzz] bzw. (stimmlos) [ssssss] produziert.)
Die Frequenz der Schwingungen der Stimmlippen können innerhalb von Grenzen verändert
werden, was zu Veränderungen der Tonhöhe und der Lautstärke führt. Diese Fähigkeit
spiegelt sich in der Sprache etwa im Bereich der Betonung und Intonation wider.
Die Stimmritze läßt sich auch verschließen (z.B. beim Anhalten der Luft). Wenn nun dieser
Verschluß geöffnet („gesprengt“) wird, ergibt das den sogenannten glottalen Verschlußlaut
[]. Diesen Laut kann man am Beginn von Husten hören, oder z.B. im Deutschen vor
10 Genauer können wir beim Rachen verschiedene Teile unterscheiden: der Kehlrachen ( Laryngopharynx, von der Speiseröhre bis zum Kehldeckel (Epiglottis)), der Mundrachen ( Oropharynx, von der Zungenwurzel bis zu den Gaumenbögen – nach vorne schließt daran die Mundhöhle an) und der Nasenrachen ( Nasopharynx, im Anschluß an den Mundrachen mit dem Rachendeckel als obere Begrenzung. Hier beginnen links und rechts die Eustachischen Röhren, die eine Verbindung zum Mittelohr bilden.)
11
Vokalen im Wort- oder Morphemanlaut, oder im Englischen, im speziellen im Cockney11, tritt
z.B. der glottale Plosiv zwischen Vokalen anstatt von [t] auf, wie in <butter> oder <water>.
Einen weiteren Aspekt der Vielseitigkeit der Stimmlippen zeigt sich etwa beim Flüstern.
Wenn wir flüstern, dann bleibt der hintere Teil der Stimmritze dreieckförmig offen – das
sogenannte Flüsterdreieck – , wobei die Stimmritze aussieht wie ein verkehrtes Y.
Nachdem der pulmonale Luftstrom den Kehlkopf passiert hat, strömt er durch das
röhrenförmige Gebilde des Rachen- und Mundraums (gelegentlich auch durch den
Nasalraum). In diesem Bereich wird nun der Luftstrom von verschiedenen beweglichen
Sprechwerkzeugen beeinflußt – es kommt zur Artikulation. Als Artikulation bezeichnet man
die Erzeugung von Sprachlauten aufgrund der Veränderung des Luftstroms im Ansatzrohr.
Bei dieser Modifikation spielen vor allem die beweglichen Sprechwerkzeuge, wie die Zunge,
die Lippen oder der weiche Gaumen eine große Rolle. Weiters werden die im Ansatzrohr
gebildeten Laute auch von den Eigenschaften der „Röhren“, durch die der Luftstrom
hindurchgeht, beeinflußt. Diese röhrenförmigen Gebilde sorgen für die Resonanz der Laute,
wobei diese Resonanz auch veränderlich ist, da das Ansatzrohr verschiedene Formen
annehmen kann.
Bei der Beschreibung der Artikulation wird meist zwischen beweglichen und (relativ)
unbeweglichen Teilen des Vokaltrakts unterschieden. D.h. die beweglichen, „aktiven“
artikulierenden Organe (Artikulatoren) sind vom Sprecher steuerbar, was für die „passiven
Artikulatoren“ nicht gilt. Zu diesen gehören:
a) die oberen Schneidezähne;
b) der Zahndamm (Zahnalveolen, Alveoli dentales) – der Knochendamm hinter den oberen
Schneidezähnen;
c) der harte Gaumen (Palatum durum) – die knöcherne Wölbung hinter dem Zahndamm.
11 Eine dialektale Variante des Englischen in London.
12
Zu den übrigen mehr oder weniger beweglichen Sprechwerkzeugen zählen (von vorne nach
hinten):
a) der Unterkiefer (Mandibula): Er ist sehr beweglich, d.h. er kann gehoben oder gesenkt
werden, aber auch nach vorne oder hinten verschoben werden;
b) die Lippen (Labia – Labium, sg.): Sie bestehen aus Muskeln, die eine Reihe von
Bewegungen erlauben, die vor allem für die Mimik wichtig sind. Für die Lautproduktion
können sie geschlossen (aufeinander gepreßt) sein (z.B. [p], [m]), oder in verschiedenem
Ausmaß geöffnet sein, z.B. gerundet (die Lippen bilden einen Kreis) (z.B. [u]), oder
auseinandergezogen (z.B. [i]), oder die durch die geöffneten Lippen ausströmende Luft
kann auch ein Reibegeräusch erzeugen;
c) die Zunge (Lingua): Unter den beweglichen Sprechorganen ist die Zunge jenes, das die
meisten Bewegungen und Formveränderungen durchführen kann, was dazu führt, daß sie
bei der Bildung einer Vielzahl von Sprachlauten mitwirkt. Dabei ist auch zu beachten, daß
bei den Bewegungen nicht unbedingt die ganze Zunge beteiligt ist, sondern nur Teile wie
beim Heben oder Senken der Zungenspitze, des Zungenrückens, oder der Zungenränder;
weiters kann die Zungenspitze bis zum oberen Abschluß des Mundraumes zurück
gebogen werden oder der ganze Zungenkörper kann vorgeschoben oder zurückgezogen
werden. Was die Formveränderungen betrifft, so können wir eine Verlängerung oder
Verkürzung, die Bildung von Rillen, Vertiefungen oder Erhöhungen beobachten.
d) der weiche Gaumen (Gaumensegel, Velum palatinum): Dabei handelt es sich um eine
Muskelplatte, die hinten vom harten Gaumen segelförmig herabhängt. Sein auffälligstes
Merkmal ist herabhängende Zäpfchen (Uvula), was sich leicht erkennen läßt, wenn man
die Mundhöhle im Spiegel ansieht. Das Velum kann gehoben oder gesenkt werden, d.h.
wenn es gehoben ist, wird der Nasenraum verschlossen und die Luft kann durch den
Mundraum ein- oder austreten; ist das Velum gesenkt, so kann die Luft durch den
13
Nasenraum ein- bzw. austreten (diese entspricht der Ruheatmung bei geschlossenem
Mund).
Für die Produktion von Sprachlauten bedeutet das, daß bei gehobenem Velum die Luft
durch den Mund austritt, wodurch Orallaute erzeugt werden (die meisten Vokale und
Konsonanten des Deutschen); das Velum gesenkt ist und der Mund geöffnet ist, wodurch
die Luft durch Mund und Nase entweichen kann, was zur Bildung von nasalierten Lauten
führt (vgl. Vokale im Französischen, z.B. in „bon“); und schließlich kann das Velum
gesenkt sein und der Mund ist geschlossen, was bedeutet, daß die ganze Luft durch die
Nase entweicht, was zu Produktion von nasalen Konsonanten führt (z.B. [m] oder [n]).
e) der Rachen (Pharynx): Dabei handelt es sich um eine muskulöse Röhre, deren Größe durch
die Bewegungen der Zunge, des Kehlkopfes und der Rachenmuskulatur verändert werden
kann. Zwar dient der Pharynx primär als Resonanzraum, aber eine Verengung kann auch
bei der Produktion von einigen Konsonanten eine Rolle spielen (z.B. im Arabischen: []).
Damit hätten wir den kurzen Überblick über die Sprechorgane abgeschlossen. Was noch
bleibt, ist ein Hinweis auf die Beziehung zwischen der artikulatorischen Beschreibung von
Lauten und den besprochenen Artikulationsorganen.
Wie bereits erwähnt werden die beweglichen Teile des Vokaltrakts als Artikulationsorgane
bezeichnet und die eher unbeweglichen Teile als Artikulationsstellen. Durch die Bewegungen
der Artikulationsorgane in bezug auf die Artikulationsstellen wird die Struktur des
Ansatzrohres verändert, was zur Bildung von unterschiedlichen Lauten führt. Dazu kommt
noch, daß der Luftstrom durch die von den Artikulationsorganen aufgebauten „Hindernisse“
unterbrochen bzw. modifiziert werden kann, was in den verschiedenen Artikulationsarten
(Artikulationsmodi) resultiert.
Im folgenden sollen einige Beispiele dies erläutern:
a) Artikulationsstelle: Oberlippe, Artikulationsorgan: Unterlippe (durch Bewegung des
Unterkiefers), Bezeichnung: bilabial (weitere Angaben für eine artikulatorische
14
Beschreibung wären: Artikulationmodus: z.B.: plosiv und Stimmtonbeteiligung: z.B.:
stimmlos – dies wäre der Laut [p] in „Pute“)
b) Artikulationsstelle: obere Schneidezähne, Artikulationsorgan: Unterlippe, Bezeichnung:
labiodental (weitere Angaben: Artikulationsmodus: z.B.: frikativ und
Stimmtonbeteiligung: stimmhaft – dies wäre der Laut [v] in „Wein“)
c) Artikulationsstelle: weicher Gaumen, Artikulationsorgan: Zunge (genauer: Zungenrücken),
Bezeichnung: velar (weitere Angaben: Artikulationsmodus: z.B.: plosiv und
Stimmtonbeteiligung: stimmlos – diese wäre der Laut [k] in „Kuchen“).
Aus diesen Beispielen läßt sich erkennen, daß für die nähere artikulatorische Bestimmung der
Konsonanten, dabei handelt es sich um Laute, bei deren Produktion im Ansatzrohr
vollständige bzw. unvollständige Verschlüsse oder Engen auftreten, offensichtlich vier
Kriterien entscheidend sind: die Artikulationsstelle, das Artikulationsorgan, der
Artikulationmodus und die Stimmtonbeteiligung12.
Der Vollständigkeit halber soll auch noch ganz kurz auf die artikulatorische Beschreibung der
Vokale eingegangen werden. Im Gegensatz zu den Konsonanten werden diese Laute mit
einem offenen Ansatzrohr produziert. Für ihre nähere artikulatorische Bestimmung werden
verwendet: die Artikulationsstelle, die Zungenhöhe und die Lippenstellung.
Als Artikulationsstelle wird jener Teil des Gaumens bezeichnet, der dem höchsten
horizontalen Punkt der Zunge gegenüber liegt. Daraus ergibt sich folgende Einteilung:
vordere (palatale) Vokale, mittlere (zentrale) Vokale und hintere (velare) Vokale – Vorder-,
Mittel(Zentral)- und Hinterzungenvokale.
Der Begriff Zungenhöhe bezieht sich auf den vertikalen Abstand des höchsten Punktes der
Zunge vom Gaumen. Das ergibt folgende Einteilung: hohe (geschlossene), mittlere und tiefe
(offene) Vokale – auch als Hochzungen-, Mittelzungen- und Tiefzungenvokale bezeichnet.
12 Wie aus dem Beispiel b) ersichtlich, wird bei zusammengesetzten Bezeichnungen die Bezeichnung für das artikulierende Organ vor jene für die Artikulationsstelle gesetzt: labio-dental. Weiters ist anzumerken, daß bei
15
Nach der Lippenstellung kann man entsprechend der Form der Lippen zwischen gerundeten
und ungerundeten Vokalen unterscheiden.
Einige Beispiele dazu:
a) [i]: ungerundeter palataler Hochzungenvokal,
b) []: gerundeter velarer Mittelzungenvokal.
Damit wollen wir diesen kurzen Abriß zu den Sprechorganen und ihren Funktionen
abschließen, wobei darauf hingewiesen werden muß, daß es sich hier nur grundsätzliche
Hinweise auf die Aufgaben dieser Organe bei der Sprachproduktion handelt. Eine
ausführliche und detaillierte Beschreibung der Sprachlaute und ihrer Produktion bietet die
artikulatorische Phonetik.
2.2 Hörorgane
Nach diesem kurzen Abriß über die Anatomie und Funktionen der Sprechorgane wollen wir
uns nun der rezeptiven Seite zuwenden. Der erste Schritt in der Perzeption der Laute erfolgt,
wenn die Schallwellen das Ohr erreichen. Von hier werden die in Nervenimpulse
„übersetzten“ Schallereignisse über den Hörnerv in das Gehirn weitergeleitet, wo die
eingehenden neuronalen Reize ausgewertet und weiterverarbeitet werden. (Zu den für die
Sprachrezeption und –produktion wichtigen Teile des Gehirns s. das folgende Kapitel.)
Das Ohr (s. Abb. 3: Gehör) wird in drei Abschnitte gegliedert: das Außenohr, das Mittelohr
und das Innenohr.
Das Außenohr besteht aus der Ohrmuschel (Auricula) und dem äußeren Gehörgang (Meatus
acusticus externus). Bezüglich der Schallrezeption ist die Ohrmuschel nur von
untergeordneter Bedeutung. Zwar hilft sie bei der Lokalisierung von Schallquellen, aber
ansonsten leitet sie nur die Schallwellen in das Ohr. Wichtiger ist dagegen der äußere
Gehörgang, der in der Ohrmuschel beginnt und zum Trommelfell führt. Dieser ca. 2,5 cm
der artikulatorischen Beschreibung von Lauten im allgemeinen die Angabe des Artikulationsorgans entfällt, z.B.
16
lange Gang enthält Haare und Drüsen, die Talg absondern, der zusammen mit anderen
Partikeln das Ohrenschmalz (Zerumen) bildet. Das Ohrenschmalz dient als Filter, um zu
verhindern, daß Staub oder andere kleine Fremdkörper bis zum Trommelfell gelangen. Der
äußere Gehörgang verstärkt den Schall bestimmter Frequenzen (zwischen 2000 und 3000 Hz),
was zu einer Verbesserung der Wahrnehmung von schwachen Lauten in diesem
Frequenzbereich führt.
Das Trommelfell (Membrana tympani) trennt das Außenohr vom Mittelohr. Es handelt sich
dabei um eine häutige Membran, die den äußeren Gehörgang schräg abschließt (oben 6 mm
weiter außen als unten). Das Trommelfell ist keine ebene Fläche, sondern geht trichterförmig
nach innen, wobei der sogenannte Nabel (Umbo) am weitesten innen liegt. Ein Teil des ersten
Gehörknöchelchens (der Griff des Hammers) liegt dicht am Trommelfell an. Auf diese Weise
werden die Schwingungen des Trommelfells auf die Gehörknöchelchen übertragen.
Das Mittelohr liegt hinter dem Trommelfell, wobei die Kammer des Mittelohrs als
Paukenhöhle bezeichnet wird. Dabei handelt es sich um eine ca. 15 mm hohe mit Luft gefüllt
Kammer, die über die sogenannte Eustachische Röhre mit dem Nasenrachenraum verbunden
ist. (Dies gilt natürlich für jedes Ohr.) Die Hauptaufgabe des Mittelohrs besteht in der
Umsetzung des am Trommelfell ankommenden Schalls in mechanische Schwingungen, die
weiter in das mit Flüssigkeit gefüllt Innenohr übertragen werden. Diese Übertragung erfolgt
durch drei winzige Knochen – den Gehörknöchelchen. (Sie sind als einzige Knochen des
Skeletts bereits bei der Geburt vollständig ausgebildet.) Die Gehörknöchelchen sind an
Bändern in der Paukenhöhle befestigt und miteinander gelenkig verbunden, wodurch die
Schwingungen gut von einem zum anderen übertragen werden können. Die Bezeichnungen
der Gehörknöchelchen ergeben sich aus ihrer charakteristischen Gestalt: Hammer (Malleus),
Amboß (Incus) und Steigbügel (Stapes). An den Hammer, der mit dem Trommelfell
verbunden ist, schließt sich der Amboß an und daran wieder der Steigbügel. Dieser wiederum
stimmhafter bilabialer Plosiv: [b] oder stimmloser labiodentaler Frikativ: [] (in „think“).
17
liegt auf dem ovalen Fenster auf, das eine Öffnung in der Knochenwand zwischen Mittelohr
und Innenohr bildet.
Zwar erscheint diese Art der Übertragung von Schwingungen recht kompliziert, doch ergeben
sich daraus einige wichtige Vorteile: Zum einen werden die Schwingungen bis zum Innenohr
deutlich verstärkt – um einen Faktor von 30 dB –, denn ohne diese Verstärkung würden sie in
der Flüssigkeit des Innenohrs schnell verebben. Zum anderen bildet das Knochensystem des
Mittelohrs einen Schutz für das Innenohr vor extrem lauten Geräuschen und die Muskeln, die
für die Bewegungen des Trommelfells und des Steigbügels zuständig sind, können reflexartig
so reagieren, daß das Risiko von Verletzungen des Innenohrs durch extreme Schwingungen
verringert wird. (Bei manchen lauten Geräuschen kann die Reaktionszeit der Muskeln jedoch
zu lang sein, so daß es doch zu Verletzungen kommen kann.)
Das Innenohr (s. Abb. 4) liegt im Schläfenbein13 und besteht aus einem komplizierten System
von Gängen und Windungen, die als häutiges Labyrinth bezeichnet werden. Dieses liegt in
einem Hohlraum des Knochens, der in etwa die Form des häutigen Labyrinths widerspiegelt,
und daher auch als knöchernes Labyrinth bezeichnet wird. Das knöcherne Labyrinth enthält
eine klare Flüssigkeit, die Perilymphe, in der das häutige Labyrinth schwimmt. Das häutige
Labyrinth umfaßt die Bogengänge, den Utriculus (AB7), den Sacculus (AB6) und die
Schnecke. Sacculus und Utriculus sowie die von ihm abgehenden Bogengänge bilden das
Gleichgewichtsorgan. Wir wollen uns nun jenen Teilen des Innenohrs zuwenden, die für die
Übertragung der (ursprünglichen) Schallschwingungen wichtig sind, denn hier werden die –
inzwischen – mechanischen Schwingungen in neuronale Impulse umgewandelt. Das vom
Steigbügel verschlossene Vorhoffenster (ovales Fenster, AC2) führt zum Vorhof (Vestibulum
AC3), dem Mittelteil des knöchernen Labyrinths. Das Vestibulum geht in die knöcherne
Schnecke (Cochlea) über, die einen gewundenen Hohlraum von ca. 35mm Länge bildet, der
einem Schneckenhaus ähnlich sieht. Die Schnecke (s. Abb. 5) ist über ihren gesamten Bereich
13 Genauer im Felsenbein (Pars petrosa).
18
in eine obere und eine untere Kammer geteilt, die Vorhoftreppe (Scala vestibuli) bzw.
Paukentreppe (Scala tympani), die mit einer klaren, zähen Flüssigkeit, der Perilymphe, gefüllt
sind. Der Schneckengang (Ductus cochlearis), der Endolymphe enthält, trennt die beiden
Kammern, wobei die untere Wand des Schneckengangs von der Basilarmembran (Lamina
basilaris) und die obere von der Reissnerschen Membran gebildet wird. Die Schwingungen
werden nun über das Vorhoffenster auf die Flüssigkeit der Vorhoftreppe übertragen und sie
durchwandern nun die ganze Schnecke bis zur Schneckenspitze, wo sie aufgrund einer
Öffnung im Schneckengang von der Vorhoftreppe in die Paukentreppe gelangen, und sie
enden schließlich am runden Fenster (Fenestra cochleae), das die Paukentreppe gegenüber
dem Mittelohr abschließt. Die Basilarmembran kann aufgrund ihrer unterschiedlichen Breite –
am schmalsten am Fuß der Schnecke und zunehmend breiter zur Schneckenspitze hin –
entsprechend unterschiedlich auf die eintreffenden Druckwellen reagieren. So wirken sich
hohe Frequenzen vor allem auf das schmale Ende aus, wogegen tiefere Frequenzen das
breitere Ende betreffen.
Die Lamina basilaris trägt auch das Cortische Organ, den eigentlichen rezeptorischen
Apparat. Dieses Organ wandelt nun die mechanischen Bewegungen in neuronale Impulse um.
Das Cortische Organ enthält Stütz- und Sinneszellen, wobei die Sinneszellen aus den inneren
und äußeren Haarzellen bestehen. An der Basis der Haarzellen enden Nervenfasern mit
synaptischen Kontakten. Durch die elektrochemischen Umwandlungen werden so die Fasern
des Hörnervs (VIII. Hirnnerv, N. vestibulocochlearis) erregt und die Signale werden weiter
zum Schläfenlappen (Lobus temporalis) im Gehirn geleitet, wo die nun die weitere
Verarbeitung der ankommenden akustischen Signale erfolgt.
Damit haben wir den kurzen Überblick über den Aufbau und die Funktionen der Sprech- und
Hörorgane beendet. Der nächste Abschnitt bietet eine kurze Darstellung der für die Sprache
wichtigsten Teile des Gehirns.
19
2.3 Gehirn
Das Gehirn bildet zusammen mit dem Rückenmark das zentrale Nervensystem (ZNS). Das
periphere Nervensystem besteht aus den Hirnnerven und den Spinalnerven.
Das Gehirn ist jener Teil des ZNS, das im knöchernen Teil des Schädels liegt. Es bildet die
größte und komplexeste Masse an neuronalem Gewebe im ganzen Körper und wiegt im
Durchschnitt 1,4 kg. Umgeben wird das Gehirn von drei faserartigen Membranen, den
Meningen (Hirnhäuten): harte Hirnhaut (Pachimenix, dura mater), Leptomenix (weiche
Hirnhaut), die aus Arachnoidea und Pia mater (gefäßführender Teil der weichen Hirnhaut)
besteht. Sie umschließen einen mit Flüssigkeit gefüllten Raum; diese Flüssigkeit ist die sog.
Cerebrospinalflüssigkeitt (Liquor cerebrospinalis). Innerhalb des Gehirns gibt es eine Reihe
von mit Flüssigkeit gefüllte Räume, die sog. Ventrikel.
Die peripheren Nerven treten durch Löcher, Foramina, in der Schädelbasis (Hirnnerven) nach
außen und ziehen zu den Muskeln und Hautbezirken. (Die Spinalnerven treten zwischen den
Wirbelbögen nach außen.)
Wenn man das Gehirn von der Seite betrachtet (s. Abb. 6), kann man folgende Teile
unterscheiden: das Großhirn (Cerebrum), das Kleinhirn (Cerebellum) und den Hirnstamm
(Truncus encephali a. cerebri). An den Hirnstamm schließt sich das Rückenmark (Medulla
spinalis) an.
Im Gehirn sind auch alle Bereiche lokalisiert, die die sensorischen und motorischen
Aktivitäten – und somit auch die sprachlichen – steuern und weiters auch noch die Bereiche
für Rationalität, Gedächtnis und Intelligenz.
Zur leichteren Orientierung gibt es Lagebezeichnungen, mit deren Hilfe die einzelnen
Hirnstrukturen näher beschrieben werden können. Dabei werden folgende Ausdrücke
verwendet (vgl. Abb. 6): das Vorderende der Achse wird als oral oder rostral bezeichnet, das
Hinterende als kaudal, die Unterseite als ventral (a. basal) und die Oberseite als dorsal.
20
Bevor wir auf die einzelnen Teile des Gehirns zu sprechen kommen, wollen wir uns noch eine
differenziertere Gliederung des Gehirns ansehen:
Encephalon (Gehirn): Prosencephalon (Vorderhirn) und Truncus encephali (Hirnstamm)
Prosencephalon: Telencephalon (Endhirn) und Diencephalon (Zwischenhirn)
Truncus encephali: Mesencephalon (Mittelhirn) und Rhombencephalon (Rautenhirn)
Rhombencephalon: Metencephalon (Hinterhirn) und Myelencephalon (Markhirn) [a. Medulla
oblongata]
Metencephalon: Pons (Brücke) und Cerebellum (Kleinhirn)
Im folgenden werden die einzelnen Teile kurz besprochen und auch auf einige lokalisierten
Funktionen hingewiesen.
21
2.3.1 Prosencephalon
Das Vorderhirn besteht – wie wir gesehen haben – aus dem Zwischenhirn (Diencephalon)
und dem Endhirn (Telencephalon). Beim reifen Gehirn bildet das Telencephalon die beiden
Hemisphären (Großhirnhemisphären) und zwischen den beiden Hemisphären liegt das
Zwischenhirn.
Die Oberfläche des Gehirns ist stark gefaltet, wobei die Furchen (Sulci, Sulcus) und die
Windungen (Gyri, Gyrus) bezeichnet werden. Besonders tiefe Einschnitte werden auch als
Fissurae (Fissura) bezeichnet.
Im folgenden (s. Abb. 6) nun ein kurzer Überblick über Teile des Gehirns: Die Hemisphären
sind durch eine tiefe Furche, Fissura longitudinalis cerebri, getrennt und an den Seitenflächen
läßt sich der Sulcus lateralis (Sylvii) erkennen.
Die Oberfläche der Hemisphären umhüllt das Zwischenhirn und den oberen Teil des
Hirnstammes wie ein Mantel, was dazu führt, daß sie auch als Mantel (Pallium) bezeichnet
wird.
Wenden wir uns nun den Hemisphären zu (Beispiel: linke Hemi. von außen): Die Hemisphäre
wird in vier Hirnlappen (Lobi cerebri) gegliedert: Stirnlappen (Lobus frontalis),
Scheitellappen (Lobus parietalis), Schläfenlappen (Lobus temporalis) und
Hinterhauptslappen (Lobus occipitalis).
Wie bereits erwähnt, besteht die Hemisphärenoberfläche aus Sulci und Gyri, wobei
unterschieden werden kann zwischen Primär-, Sekundär- und Tertiärfurchen. Die zuerst
auftretenden Primärfurchen sind bei allen Gehirnen gleich ausgebildet (Sulcus centralis,
Sulcus calcarinus (B39)). Die Sekundärfurchen variieren, und die zuletzt auftretenden
Tertiärfurchen verlaufen regellos und sind in jedem Gehirn verschieden. Somit hat jedes
Gehirn sein eigenes Oberflächenrelief, das einen Ausdruck der Individualität darstellt.
Wenden wir uns nun wieder der Abb. 6 zu:
22
Der Frontallappen reicht vom Frontalpol (A1) bis zum Sulcus centralis (A2); dieser begrenzt
zusammen mit dem Sulcus praecentralis (A3) den Gyrus praecentralis (A4). Zusammen mit
dem Gyrus postcentralis bildet der G. praecentralis die sog. Zentralregion; sie beinhaltet auch
jenseits der Mantelkante (AB 6) den Gyrus paracentralis (B7).
Weiters enthält der Frontallappen drei große Windungszüge: den Gyrus frontalis superior
(A8), den Gyrus frontalis medius (A9) und den Gyrus frontalis inferior (A10); getrennt
werden diese durch den Sulcus frontalis superior (A11) und dem Sulcus frontalis inferior
(A12). Am Gyrus frontalis inferior lassen sich drei Teile unterscheiden, die den Sulcus
lateralis begrenzen: die Pars opercularis (A14), Pars triangularis (A15) und Pars orbitalis
(A16).
Der Parietallappen hat hinter dem Sulcus postcentralis (A17) den Lobulus parietalis superior
(A18) und auch inferior (A19); diese beiden werden vom Sulcus interparietalis (A20)
getrennt.
Um das Ende der Fissura lateralis herum liegt der Gyrus supramarginalis (A21) und ventral
dazu der Gyrus angularis (A22).
Der Temporallappen hat wiederum drei deutlich erkennbare Windungszüge: Gyrus temporalis
superior (A25), Gyrus temporalis medius (A26) und Gyrus temporalis inferior (A27). Diese
Gyri werden nun durch den Sulcus temporalis superior (A28) und den Sulcus temporalis
inferior (A29) getrennt.
Wenn wir uns dazu kurz den Medianschnitt (B) ansehen, so können wir den Gyrus
parahippocampalis (B30) erkennen, der „oral“ in den Uncus (B31) und „kaudal“ in den
Gyrus lingualis (B32) übergeht. Dazu einige weitere Angaben: Gyrus temporalis lateralis
(B35); Sulcus occipitotemporalis (B36).
Im Okzipitallappen (Okzipitalpol: AB37) finden wir den Sulcus occipitalis transversus (A38),
den tiefen Sulcus calcarinus (B39). Der Sulcus calcarinus begrenzt zusammen mit dem Sulcus
parieto-occipitalis (B40) den Cuneus (B41).
23
Der Gyrus cinguli (B42) zieht um den Balken (B43) herum, wobei er „kaudal“ durch den
Sulcus hippocampi (B44) vom Gyrus dentatus (B45) getrennt ist; „oral“ gesehen, läuft er
(G.cinguli) im Gyrus paraterminalis (B46) in der Area subcallosa (Area perolfactoria) (B47)
aus.
(Der Vollständigkeit halber: B48 = Isthmus gyri cinguli.)
Es sei noch einmal darauf hingewiesen, daß durch die Ausbildung von Furchen und
Windungen die Ausdehnung der Hirnrinde sehr stark vergrößert wird, so daß man davon
ausgehen kann, daß etwa 2/3 der gesamten Oberfläche in der Tiefe des Cortex14 liegen.
(An dieser Stelle soll nicht auf Spekulationen bezüglich der Anzahl von Neuronen im
cerebralen Cortex eingegangen (15 Milliarden++?) werden - man bedenke die Messweise.)
Interessant ist allerdings, daß alle Gebiete des Neocortex eine gleichartige Entwicklung
durchmachen (d.h. an der Oberfläche der Hemisphäre bildet sich zuerst eine breite Zellschicht
(die Rindenplatte), die sich danach in sechs Schichten aufspaltet). (Aufgrund dieser
gleichartigen Entwicklung wird der Neocortex auch als isogenetischer Cortex bezeichnet
(=Isocortex).), aber trotzdem weist der Neocortex in verschiedenen Regionen deutliche
Variationen auf, so daß man eine Anzahl von unterschiedlich gebauten Bereichen
(Rindenfeldern) unterscheiden kann. Dabei können in diesen Rindenfeldern die einzelnen
Schichten äußerst verschieden beschaffen sein: breit od. schmal, dichte Zellkombinationen
oder eher lockere; auch die Zellen können verschieden groß sein oder es kann ein bestimmter
Typ von Zellen vorherrschen.
Diese Felder lassen sich auch abgrenzen, was als Zytoarchitektonik bezeichnet wird. Dadurch
läßt sich auf der Oberfläche einer Hemisphäre (- ähnlich einer Landkarte) eine Karte der
Rindenfelder erstellen. Die von Korbinian Brodmann am Beginn des vorigen Jahrhunderts
entworfene Karte der Rindenfelder wurde vielfach bestätigt und ist allgemein anerkannt.
14 Die graue aus Nervenzellen bestehende Substanz, die an der Oberfläche von Großhirn und Kleinhirn liegt, wird als Cortex bezeichnet: C. cerebri (Substantia corticalis cerebri: besteht meist aus sechs Zellschichten - Großhirnrinde), C. cerebelli (Substantia corticalis cerebelli: ca. 1mm dick – Kleinhirnrinde)
24
Abb. 7 zeigt die von Brodmann entworfene Karte, wobei anzumerken ist, dass diese Karte der
Rindenfelder vielfach bestätigt worden ist. Bei der Erstellung seiner Karte versuchte
Brodmann die Strukturen und die Funktionen im cerebralen Cortex zu korrelieren. Das
Ergebnis war, daß der Cortex unterteilt werden kann in motorische Areale, sensorische Areale
und Assoziationsareale. Die motorischen Areale steuern die willkürliche Muskelaktivitäten,
dagegen befassen sich die sensorischen Areale mit der Aufnahme von sensorischen Impulsen
(z.B. Sehen und Hören). Es lassen sich in jeder Hemisphäre drei primäre sensorische Areale
unterscheiden - eines für Sehen, eines für Hören und eines für allgemeine Sinne (z.B.
Tastsinn). Der sog. Assoziationscortex (assoziativer Cortex) umfaßt ca. 75% des cerebralen
Cortex. Diese Bereiche erhalten vielfache Eingaben und Ausgaben (Input/Output), wobei
viele davon unabhängig von den primären motorischen und sensorischen Arealen sind.
(Ursprünglich hatte man angenommen, daß die assoziativen Areale Informationen von den
primären sensorischen Arealen erhalten, sie integrieren und analysieren, und danach geben
sie die Informationen weiter an die motorischen Areale.)
Allgemein angenommen werden 3 große assoziative Bereiche: präfrontales Areal, anterior-
temporales Areal und parietal-temporal-occipitales Areal. Insgesamt gesehen sind diese
Bereiche in den verschiedensten intellektuellen und kognitiven Funktionen involviert.
Abgegrenzte Ansammlungen von grauer Substanz, also Nervenzellen, in anderen Teilen als
den kortikalen Bereichen oder auch in der weißen Substanz von Groß- und Kleinhirn werden
als Nucleus (Kerngebiet) bezeichnet bzw. auch als Ganglion (s.u.) und Corpus.
Unterhalb des cerebralen Cortex besteht jede Hemisphäre aus weißer Substanz, in der eine
Anzahl von isolierten „Flecken“ grauer Substanz gefunden werden können. Diese Flecken
grauer Masse werden als Basalkerne (Basalganglien) (s. Abb. 8) bezeichnet. Sie erfüllen
wichtige motorische Funktionen und ihre Schädigung wird mit einer bereiten Palette
neurologischer Störungen in Zusammenhang gebracht, z.B. Parkinson, Chorea (verschiedene
Krankheitsbilder; schnelle, unwillkürliche Kontraktionen einzelner Muskelgruppen), Athetose
25
(langsame, geschraubte, z.T. überdehnte Bewegungen bei einer willkür-motorischen
Handlung), wobei all dies auch mit sprachlichen Störungen einher gehen kann.
Die Basalkerne sind klar abgegrenzte größere Kernstrukturen, von denen die wichtigsten als
Striatum (Putamen u. Caudatum) und als Pallidum bezeichnet werden. Sie liegen in der Tiefe
der Hemisphäre, wobei das Striatum (Corpus striatum) als oberste subkortikale Schaltstelle
des extrapyramidalen motorischen Systems gilt. (Diese Bereiche könnten bei Sprachstörungen
mit möglicherweise subkortikalem Ursprung eine Rolle spielen.)
Bevor wir uns nun näher der Verteilung der motorischen und sensorischen Funktionen im
Cortex zuwenden, sollte darauf hingewiesen werden, daß es sich bei der weißen Substanz, die
im cerebralen Cortex vorgefunden werden kann, um myelinisierte Nervenfasern handelt, die
in drei Richtungen führen. Zuerst einmal gibt es die sog. Assoziationsfasern, die neuronale
Impulse von einem Bereich des Cortex zu einem anderen innerhalb derselben Hemisphäre
transportieren. Ein solches Bündel an Fasern, das für die Sprachfunktion wichtig ist, ist der
sog. Fasciculus arcuatus (Fasciculus ist ein Bündel von Nervenfasern im ZNS.). Der Fasc.
arcuatus verbindet nun einen für sie Sprache wichtigen Bereich im Temporallappen mit einem
für die Sprache wichtigen Bereich im Frontallappen und wenn der Fasc. arcuatus geschädigt
ist, kann es zu einer Störung kommen, die als Leitungsaphasie bezeichnet wird. Die zweite
Gruppe von Fasern sind die sog. Kommissuren, die die neuronalen Impulse von einer
Hemisphäre in die andere übertragen. Die dritte Gruppe sind nun Fasern, die die subkortikale
weiße Substanz ausmachen, sind sog. Projektionsfasern, die die aufsteigenden (afferenten)
bzw. absteigenden (efferenten) Bahnen ausmachen, die das Prosencephalon mit den
Strukturen des weiter unten liegenden ZNS, dem Hirnstamm und dem Rückenmark,
verbinden.
Wir wollen uns nun den wichtigen motorischen Bereichen im Cortex zuwenden. Im
Frontallappen finden wir jene Zentren, die für die willkürlichen Bewegungen zuständig sind.
Dabei handelt es sich um die sogenannten motorischen Areale des Cortex. Diese liegen
26
unmittelbar vor dem Sulcus centralis. Dabei handelt es sich um den sog. Gyrus praecentralis
(Brodman Area 4), der auch als primäres motorisches Areal bezeichnet. Hier finden wir den
Ursprung jener Nervenfasern, die die willentlichen neuronalen Impulse vom Cortex zum
Hirnstamm und Rückenmark senden - somit sind diese Neuronen für die willentliche
Kontrolle der Skelettmuskulatur verantwortlich, wobei wiederum die Kontralateralität zu
beachten ist. Diese Nervenfasern, die das primäre motorische Areal verlassen und zum
Hirnstamm bzw. Rückenmark weitergehen, bilden die sog. Pyramidenbahnen.
Alle Körperteile, die der willkürliche Muskelkontrolle unterliegen, sind in dieser präzentralen
Region repräsentiert (Abb. 9). Diese Somatotopik wurde aufgrund von elektrischen
Stimulationen an Patienten unter Lokalanästhesie erhoben, wobei diese Patienten für
Gehirnoperationen vorbereitet wurden. Diese Abbildung der einzelnen Bereiche des Körpers
wird auch als „motorischen Homunculus“ bezeichnet. Es fällt auf, dass die Bereiche des
Körpers beinahe umgekehrt repräsentiert sind: So gehen die Impulse zum Bereich des Kopfes
von Arealen aus, die im Gyrus präcentralis sehr nahe am Sulcus lateralis liegen; dagegen
kommen die Impulse, die zu den Füßen führen, aus einem Areal, das innerhalb der Fissura
longitudinalis liegt. Weiters fällt auf, daß das Ausmaß, das im Gyrus präcentralis einem
entsprechenden Bereich des Körpers gewidmet ist, nicht unbedingt mit dessen Größe
identisch ist. So läßt sich erkennen, daß die größeren Bereiche des primären motorischen
Areals jenen Körperteilen gewidmet sind, die die Fähigkeit für feine und sehr genaue
Bewegungen besitzen. Daraus ergibt sich, daß der Bereich für die Bewegungen der Hand
größer ist als jener für Bein oder Fuß. Was sich auch in dem Bereich zeigt, der mit der
Produktion von Lautsprache befaßt ist.
Zusätzlich zu diesem primären motorischen Areal wurden weitere motorische Areale in den
Frontallappen festgestellt, dazu gehören das prämotorische Areal (Brodmann 6), das
supplementäre motorische Areal, das sekundäre motorische Areal und das frontale Augenfeld
(Brodmann 8). Wie zu sehen ist, liegt das prämotorische Areal unmittelbar vor dem Sulcus
27
präcentralis und es besitzt nicht nur Fasern, die zu den absteigenden motorischen Bahnen,
einschließlich der Pyramidenbahnen, beitragen, sondern es beeinflußt auch die Aktivität des
primären motorischen Areals. Elektrische Stimulationen des prämotorischen Areals führen zu
komplexen Kontraktionen von Gruppen von Muskeln, wobei gelegentlich Vokalisationen
auftreten oder auch rhythmische Bewegungen wie das abwechselnde Vor- u.
Rückwärtsbewegen eines Beins, das Drehen des Kopfes, Kauen, Schlucken oder das
Verdrehen des Körpers in verschiedene Positionen. Man geht davon aus, daß das
prämotorische Areal die geschickte/geübte motorische Aktivität programmiert und auf diese
Weise das primäre motorische Areal dazu bringt, die willkürlichen muskulären Aktivitäten
auszuführen. Somit könnte dieser Bereich für die Kontrolle von koordinierten, geübten
Bewegungen, die die gleichzeitige Kontraktion von vielen Muskeln erfordern, zuständig sein.
Die Funktion des sekundären motorischen Areals ist (noch?) nicht bekannt.
Das supplementäre motorische Areal ist innerhalb der Fissura longitudinalis lokalisiert, und
zwar unmittelbar vor dem Teil des primären motorischen Areals, der für das Bein zuständig
ist - von manchen wird das supplementäre motorische Areal als ein zweites Sprachareal
angesehen.
Das frontale Augenfeld kontrolliert die willentlichen Augenbewegungen.
Einen weiteren wichtigen Bereich im Frontallappen stellt das sog. Broca Areal (Brodmann 44
u. 45) dar. Im allgemeinen wird es auch als motorisches Sprachzentrum bezeichnet, da es sich
als für die Sprachfunktion spezialisiert erwiesen hat. Das Broca Areal ist im Gyrus frontalis
inferior des Frontallappens lokalisiert. Wir werden später noch auf dieses Areal
zurückkommen und auch auf die Beziehungen zwischen diesem Bereich und dem Auftreten
von spezifischen Sprachstörungen eingehen (s.a.. VO Klinische Linguistik I-III).
Als nächstes wollen wir uns dem Parietallappen zuwenden. Der Parietallappen beherbergt
eine Reihe von allgemeinen sensorischen Funktionen, wie die Empfindungen von Wärme,
Kälte, Berührung, Schmerz, Druck und die Empfindung für die Position des Körpers im
28
Raum - möglicherweise auch Geschmacksempfindungen. All diese Gefühle werden hier
bewußt gemacht. Den primären sensorischen Bereich bildet der Gyrus postcentralis
(Brodmann-Areale 3, 1 u. 2), wobei wieder jeder der beiden Gyri die Informationen von der
kontralateralen Seite des Körpers erhält (ein kleiner Anteil der Berührungsinformation kommt
auch von derselben Seite des Gesichts). Genauso wie beim primären motorischen Areal
können wir Bereiche erkennen, die bestimmten Körperregionen zugeordnet sind (sensorischer
Homunculus, (s. Abb. 8). Die Größe des Bereichs, der einem bestimmten Teil des Körpers
zugeordnet ist, ist direkt proportional zur Zahl der spezialisierten sensorischen Rezeptoren,
die dieser Körperteil besitzt. Dies zeigt sich recht deutlich darin, dass ein ziemlich großes
Areal des G. postcentralis so sensiblen Bereichen wie etwa den Lippen oder der Hand (im
speziellen dem Daumen und dem Zeigefinger) zugeordnet ist und kleinere Bereiche weniger
sensiblen Körperteilen wie z.B. den Beinen oder dem Torso.
Zusätzlich zum G. postcentralis sind für den Psycholinguisten (Sprachpathologen/klinischen
Linguisten) noch zwei weitere Gyri besonders interessant: der Gyrus supramarginalis und der
Gyrus angularis (s. Abb. 6). In der dominanten Hemisphäre (meist die linke) bilden diese
beiden Gyri Teile des sog. posterioren Sprachzentrums, einem Bereich der in engem
Zusammenhang mit der Perzeption und der Interpretation von gesprochener und
geschriebener Sprache steht. Auf die Beziehungen, die zwischen den Schädigungen dieser
Bereiche und spezifischen sprachlichen Defiziten (Aphasien, Apraxien, Dyslexien,
Dysgraphien) bestehen, werden wir noch später zurückkommen (s.a. VO Klinische Linguistik
I-III).
Im Temporallappen ist nicht nur der Hörsinn lokalisiert, sondern hier finden wir auch einige
Neuronenkomplexe, die ebenfalls für die Sprache wichtig sind. Das primäre auditive Areal ist
bei der lateralen Ansicht nicht erkennbar, da es im Inneren des Sulcus lateralis liegt. In der
Tiefe des Sulcus lateralis liegen auch zwei querverlaufende Windungen, die sog. Gyri
temporales transversi od. Heschlsche Querwindungen, wobei in der Rinde der vorderen
29
Querwindung die Hörstrahlung endet. Die Rinde der beiden Querwindungen entspricht den
Feldern 41 u. 42, die auch als Hörrinde bezeichnet werden. Elektrische Reizungen der
benachbarten Rinde (Feld 22) haben gezeigt, daß es zu akustischen Sensationen wie Summen,
Brummen oder Klingeln kommt. Der akustische Cortex ist nach Tonfrequenzen (tonotopisch)
organisiert, wobei man annimmt, daß in der Hörrinde des Menschen die höchsten Frequenzen
medial und die tiefsten Frequenzen lateral registriert werden. In der dominanten Hemisphäre
liegt im hinteren Bereich des Gyrus temporalis superior das sog. Wernickesche
Sprachzentrum, bei dessen Schädigung es z.B. zu Problemen mit dem Sprachverständnis
kommt.
Im Okzipitallappen ist das Sehzentrum lokalisiert, wobei der primäre visuelle Bereich (Area
17) den Sulcus calacarinus umgibt (s. Abb. 6). Auf das visuelle System werden noch bei der
Besprechung von sogenannten Split-brain Patienten zurückkommen (s. VO Klinische
Linguistik I).
2.3.2 Diencephalon
Das Diencephalon besteht aus 4 übereinander gelagerten Etagen: dem Epithalamus, dem
Thalamus dorsalis, dem Subthalamus und dem Hypothalamus. Diese Anordnung ist im
embryonalen Gehirn deutlich festzustellen. Allerdings wird sie im Laufe der Entwicklung
aufgrund des regional unterschiedlichen Wachstums deutlich abgeändert, so daß durch die
Massenzunahme des dorsalen Thalamus und die Ausdehnung des Hypothalamus diese beiden
Strukturen den Aufbau des reifen Zwischenhirns bestimmen. Der Liquorraum des
Diencephalons ist der 3. Ventrikel (Ventrikulus tertius), der lateral von Thalamus und
Hypothalamus begrenzt wird.
Der Thalamus ist eine große runde graue Masse, die erst durch einen Medianschnitt sichtbar
wird (s. Abb. 10). Der Thalamus wird fast vollständig in einen linken und rechten durch den
30
3. Ventrikel geteilt. Die beiden Seiten werden verbunden durch die Adhaesio interthalamica
(18), einem Band grauer Masse.
(Einige weitere Angaben zu Abb. 10: 22: Hypophyse, 23: Corpora mamillaria, 20:
Commissura anterior, 21: Chiasma opticum, 24: Epiphysis (Zirbeldrüse), 25: Foramen
interventriculare: Verbindung zw. 3. Ventrikel und Seitenventrikel der Hemisphäre, 26:
Aequeductus cerebri, erweitert sich unter dem Kleinhirn zum 4. Ventrikel (=27), 29: Lamina
tecti (Vierhügelplatte) des Mittelhirns = Schaltstätten für optische u. akustische Bahnen)
Jeder Teil des Thalamus enthält mehr als 30 Kerne, die für wichtige sensorische und
motorische Funktionen verantwortlich sind. Der Thalamus stellt einen der wichtigsten
sensorischen Integrationszentren des Gehirns dar und wird manchmal auch als das „Tor zum
cerebralen Cortex“ bezeichnet. Mit Ausnahme der olfaktorischen Bahnen führen alle
wichtigen sensorischen Bahnen auf ihrem Weg zum cerebralen Cortex durch den Thalamus.
Somit erhält der Thalamus sensorische Information über die sensorischen Bahnen, dabei
integriert er diese Informationen, und schickt sie weiter zum cerebralen Cortex zur weiteren
Analyse und Interpretation.
Zusätzlich dazu ist der Thalamus auch mit den wichtigsten motorischen Zentren des
cerebralen Cortex verbunden und er kann die Impulse aus dem Cortex verstärken oder
behindern. Hinsichtlich seiner Funktion im Bereich der Sprache werden wir noch später
zurückkommen (s. VO KL I-III).
Der Hypothalamus liegt unterhalb des Thalamus und bildet den Boden und die seitlichen
Wände des 3. Ventrikel.
Wenn man das Gehirn von unten betrachtet (s. Abb. 11), dann erkennt man den
Zwischenhirnboden und den Hirnstamm, sowie die ventralen Flächen des Frontal- (1) und des
Temporallappens (2). Einige weitere Teile: Fissura longitudinalis (3), Bulbus olfactorius (4),
Tractus olfactorius (5), (Trigonum olfactorium (6): Aufteilung des Tractus in zwei Striae
olfactoriae, diese begrenzen die von den Gefäßeintritte durchlöcherte Substantia perforata
31
anterior (7)), Zwischenhirnboden: Chiasma opticum (8), N. opticus (9), Hypophyse (10),
Corpora mamillaria (11). Pons (12), Medulla oblongata (13), Vermis cerebelli (14) und die
Kleinhirnhemisphären (15).
Obwohl der Hypothalamus (bildet den Boden des Zwischenhirns: Chiasma opticum, Tuber
cinereum, Infundibulum, Corpora mamillaria) nur einen kleinen Teil des Gehirn bildet,
überwacht er eine Reihe von wichtigen Körperfunktionen. So kontrolliert und integriert der
Hypothalamus das autonome Nervensystem, das z.B. die Kontraktionsrate des Herzmuskels
reguliert oder die Sekretion vieler Drüsen im Körper kontrolliert, ebenso wird die
Hormonausschüttung reguliert. Wenn der cerebrale Cortex starke Emotionen interpretiert,
dann schickt er häufig Impulse über Bahnen, die den Cortex mit dem Hypothalamus
verbinden, was wiederum in Impulsen an das autonome Nervensystem oder in Aktivitäten der
Hypophyse resultieren kann. Daraus ergeben sich große Veränderung in den körperlichen
Aktivitäten. Zusätzlich werden auch Emotionen wie Zorn od. Agression und auch das
Sexualverhalten vom Hypothalamus kontrolliert.
2.3.3 Hirnstamm (Truncus encephali/cerebri)
Wenn man nun die beiden Hemisphären und das Cerebellum entfernt, bleibt eine stielartige
Masse des ZNS übrig - der Hirnstamm. Der Hirnstamm (s. Abb. 12) besteht von rostral (oben)
nach kaudal (unten) gesehen aus dem Mesencephalon (Mittelhirn C3) und dem
Rhombencephalon (Rautenhirn). Letzteres besteht wiederum aus dem Metencephalon
(Hinterhirn) und dem Myelencephalon (Markhirn (C1)). Das Metencephalon umfaßt den
Pons (Brücke (C2)) und das Cerebellum (Kleinhirn C8)). Wir wollen nun im folgenden ganz
kurz auf die einzelnen Teile eingehen.
Das Mesencephalon (Mittelhirn) ist der kleinste Teil des Hirnstamms und liegt zwischen dem
Diencephalon und dem Pons (s. Abb. 12). Teile: Pedunculi cerebri (AD28: absteigenden
Bahnen), dazwischen die Fossa interpeduncularis (A29, durchlöchert aufgrund zahlreicher
32
Gefäße: Substantia perforate posterior). Wie auf der Abb. 12 zu sehen, entspringt der
Hirnnerv III (oculomotorius) an der Seite der Grube. (Auf die Hirnnerven werden wir später
noch kurz zurückkommen.) Einige weitere Teile: Vierhügelplatte (Lamina tecti, Lamina
quadrigemina (BD30)) mit den zwei oberen und zwei unteren Hügeln (Colliculi superiores
(D31) und Colliculi inferiores (D32).
Der Pons liegt zwischen dem Mittelhirn und der Medulla oblongata und anterior zum
Cerebellum und wie zu sehen ist (Abb. 12), wird der Pons durch den 4. Ventrikel vom
Cerebellum getrennt. Seitlich sieht man den Hirnnerv V (trigeminus), wobei jeder Trigeminus
aus einer kleineren motorischen Wurzel und einer größeren sensorischen Wurzel besteht. Aus
der Furche zwischen der Pons und der Medulla oblongata treten die Hirnnerven VI
(abducens), VII (facialis) und VIII (vestibulocochlearis) aus. Obwohl der Pons hauptsächlich
aus weißer Masse besteht, beinhaltet er auch ein Anzahl von Nuclei, so die motorischen u.
sensorischen Nuclei des Trigeminus, des Facialis und des Abducens. Ein Nucleus, der mit der
Kontrolle der Atmung in Verbindung steht, ist ebenfalls hier lokalisiert.
Die Medulla oblongata zwischen dem kaudalen Rand der Pons und der Pyramidenkreuzung
(Decussatio pyramidum, Abb. 12: A4) bildet den Übergang vom Rückenmark zum Gehirn.
(Weitere Teile: Sulcus lateralis anterior A5, Pyramides A6, Oliva A7). Die Medulla oblongata
besteht hauptsächlich aus weißen Faserbündeln, innerhalb derer auch Nuclei vorhanden sind.
Diese Nuclei bilden Zentren zur Kontrolle von verschiedenen Aktivitäten oder beinhalten die
Zellkörper einiger Hirnnerven: IX (glossopharyngeus), X (vagus), XII (hypoglossus) und XI
(accesorius).
Abschließend wenden wir uns noch kurz dem Cerebellum zu. Wie wir bereits gesehen haben
liegt das Cerebellum hinter (dorsal) dem Pons und der Medulla und unterhalb (kaudal) der
Okzipitallappen des Prosencephalons. Es besteht auch aus zwei Hemisphären (cerebellare
Hemisphären), die durch einen mittleren Teil (s. Abb. 11), dem Vermis cerebelli, verbunden
33
sind. Auf jeder Seite ist das Cerebellum mit dem Hirnstamm mittels drei Bündeln von
Nervenfasern verbunden (Pedunculi cerebellares BD9, 10, 11).
Ganz allgemein gesehen sorgt das Kleinhirn dafür, dass Muskelbewegungen elegant, glatt und
gut koordiniert ablaufen. Obwohl es selbst keine Muskelbewegungen initiiert, überwacht es
ständig die motorischen Aktivitäten und paßt sie auch entsprechend an. Somit ist das
Cerebellum besonders wichtig für die Koordinierung von schnellen und präzisen Bewegungen
- eben solchen wie für das Sprechen notwendig.
(Die Störungen, die sich aus Läsionen des Cerebellums ergeben, werden wir später noch
näher besprechen (s. VO Klinische Linguistik I-III).)
2.4 Gehirnnerven
Wir wollen uns nun noch kurz den Gehirnnerven und ihren Funktionen zuwenden (s. Abb.
13). Aus der Hirnbasis entspringen 12 Paare von Hirnnerven. Zwar wird von 12
Hirnnervenpaaren gesprochen, obwohl genau genommen, die ersten zwei Paare keine echten
Nerven sind. Der Nervus olfactorius (I) besteht aus Fortsätzen der Sinneszellen im
Riechepithel; seine Funktion besteht im Riechen. Der Nervus opticus (II) ist eine cerebrale
Faserbahn; die Funktion ist Sehen.
Die übrigen Hirnnerven (III - XII) sind echte periphere Nerven. Die Bezeichnungen weisen
entweder auf ihre Funktion oder auf ihr Zielgebiet hin. Einige Hirnnerven besitzen nur
motorische oder sensorische Funktionen, andere besitzen beide Funktionen. Im folgenden
eine kurze Zusammenfassung der wichtigsten Merkmale der Hirnnerven:
III Nervus oculomotorius: Seine Funktion besteht in der Innervation der inneren u. äußern
Augenmuskeln, sowie des Muskels zur Hebung der Lider, außerdem das Zusammenziehen
der Iris und die Anpassung der Linsen;
IV Nervus trochlearis: innerviert einen äußeren Augenmuskel;
34
V Nervus trigeminus: besitzt sensible Fasern für die Haut und die Schleimhäute des Gesichts
und motorische Fasern für die Kaumuskulatur;
VI Nervus abducens: innerviert einen äußeren Augenmuskel;
VII Nervus facialis: besitzt motorische Fasern für die mimische Gesichtsmuskulatur und in
einem separaten Nervenbündel Geschmacksfasern und sekretorische Fasern (Speicheldrüsen);
VIII Nervus vestibulo-cochlearis: afferenter Nerv, der sich aus zwei Komponenten
zusammensetzt, dem N. cochlearis für das Hörorgan und dem N. vestibularis für das
Gleichgewichtsorgan;
IX Nervus glossopharyngeus: versorgt sensibel das Mittelohr, Bezirke der Zunge und des
Pharynx und motorisch Muskeln des Pharynx;
X Nervus vagus: Versorgung pharyngaler und laryngaler Muskeln (levator palatini) und
steigt ab in den Abdominalbereich (parasympathischer Nerv des vegativen Nervensystems);
XI Nervus accessorius: rein motorisch, versorgt die Muskulatur des Pharynx und Larynx und
Trapezmuskeln;
XII Nervus hypoglossus: motorisch, versorgt die Zungenmuskulatur.
Damit haben wir den kurzen Überblick über einige für die Sprache wichtigen Strukturen im
Gehirn abgeschlossen. Obwohl es noch weitere interessante und wichtige Bereiche der
Hirnanatomie gäbe, die mit der Sprache und ihren Störungen zusammenhängen, wie z.B. der
Hirnkreislauf, sollte an dieser Stelle allerdings keine eine vollständige Anatomie des Gehirns
vorgestellt werden, sondern eben nur einige grundlegende Aspekte beleuchtet werden.
3 Tierische Kommunikationssysteme und Sprache
3.1 Allgemeines
Die Sprache in ihren Modalitäten – lautlich und visuell (einschließlich Gebärdensprache) –
stellt das wichtigste Kommunikationsmittel des Menschen dar. Es stellt sich aber die Frage,
35
ob die Fähigkeit Sprache zu verwenden, ein einzigartiges Kennzeichen für die Spezies
Mensch ist. In diesem Zusammenhang ist es notwendig einerseits tierische
Kommunikationsformen zu untersuchen als auch andererseits auf die Versuche einzugehen, in
denen man Tieren – hauptsächlich Menschenaffen – sprachähnliche Kommunikationssysteme
zu lehren suchte.
Daß Tiere miteinander kommunizieren ist wohl eine Binsenweisheit und ebenso klar ist, daß
sie dazu oft sehr reichhaltige Systeme verwenden. Nun ist allerdings Kommunikation leichter
zu definieren als Sprache. Ganz allgemein kann man davon ausgehen, daß das Grundprinzip
der Kommunikation im Senden und Empfangen von Information besteht. Ein genauerer Blick
zeigt aber auch, daß Kommunikation im o. e. Sinnen aus mehreren Bestandteilen besteht: 1) je
ein Sender und Empfänger, 2) eine Nachricht (Information), 3) ein gemeinsames
Zeichensystem, das sowohl Sender als auch Empfänger verschlüsseln (enkodieren) und
entschlüsseln (dekodieren) können, 4) auf seiten von Sender und Empfänger die
Möglichkeiten und Fähigkeiten der Dekodierung und Enkodierung, 5) einen Kanal, auf dem
die Nachricht weitergegeben werden kann, 6) einen Kontext, in dem Kommunikation
stattfindet.
Die einzelnen Bestandteile können natürlich auch variieren, so können die Empfänger oder
auch Sender verschiedenster Art sein – Menschen, Tiere oder auch Computer. Wir können
auch zwischen einseitiger, zweiseitiger oder mehrseitiger Kommunikation – je nachdem wie
viele Sender und Empfänger daran teilnehmen – unterscheiden.
Was nun die Nachricht bzw. das Signal, das übertragen wird, anbelangt, so wird manchmal
darauf hingewiesen, daß es notwendig sei, zwischen kommunikativen und informativen
Signalen zu unterscheiden. Damit ist gemeint, daß ein kommunikatives Signal eine gewisse
Intentionalität besitzt, was einem informativen Signal fehlt. D.h. wenn jemand niest, so kann
dies eine Information darüber sein, daß er/sie verkühlt ist, aber ein kommunikatives Signal ist
es nicht, denn das wäre eine Mitteilung über die Verkühlung. Wenn man den Aspekt der
36
Intentionalität berücksichtigt, dann wird es schwierig, von Kommunikation zu sprechen, wenn
man sich auf die chemische Interaktion von z.B. Zellen bezieht. Wir wollen hier aber nicht
weiter die Definition(en) des Begriffs Kommunikation verfolgen, sondern uns der Frage
zuwenden, inwieweit sich nun tierische Kommunikationssystem von dem auf Sprache
basierenden Kommunikationssystem des Menschen unterscheiden.
3.2 Tierische Kommunikationssysteme
Wenn es um die Vermittlung von Signalen zwischen einem Sender und Empfänger geht, so
stellen wir bei Tieren die unterschiedlichsten Möglichkeiten fest. So verwenden Ameisen,
Motten und andere Insekten Pheromone – Duftstoffe – als Signale, Glühwürmchen leuchten,
Frösche quaken, Bienen tanzen usw. Nicht zuletzt weil letztere Kommunikationsform auch
häufig als „Bienensprache“ bezeichnet wird, soll ganz kurz darauf eingegangen werden15.
Grundsätzlich verwenden die Honigbienen zwei Arten von „Tänzen“ mit denen sie die
Informationen über Richtung, Entfernung und Ergiebigkeit einer Futterquelle an andere
Sammlerinnen weitergeben (s. Abb. 14).
Liegt die Futterquelle weniger als 100 Meter vom Bienenstock entfernt, wird mit dem
sogenannten Rundtanz (Abb. 14: 1a) darauf aufmerksam gemacht. Dieser Tanz enthält keine
Angaben über die tatsächliche Entfernung. Liegen die Sammelquellen weiter entfernt, dann
wird der sogenannte Schwänzeltanz (Abb. 14: 1b) verwendet, dabei wird die Entfernung über
die Tanzgeschwindigkeit ausgedrückt – je größer die Entfernung desto langsamer der Tanz
(Abb. 14: 3).
Die Richtung (s. Abb. 14: 4) ergibt sich aus der durch das Schwänzeln hervorgehobenen
Tanzstrecke. Tanzt die Biene auf dem waagrechten Anflugbrett, dann zeigt die
Schwänzelstrecke direkt auf den Futterplatz. Doch fast immer erfolgt der Tanz auf der
senkrecht stehenden Wabe im Stock. In diesen Fällen wird nun die Schwerkraft benutzt, um
15 Besonders untersucht von K. von Frisch, z.B. 1974. Decoding the language of bees. In: Science 185: 663-668
37
die Futterquelle im Verhältnis zur Position der Sonne auszudrücken, dabei gibt die Senkrechte
nach unten die Richtung zur Sonne an. Der Winkel zwischen der Schwänzelstrecke und dieser
Senkrechten gibt den Winkel zwischen Sonne und Futterquelle wieder. Die Bienen im Stock
können nun die Tanzrichtung mit dem Schweresinn, ihren Sinneshaaren und Fühlern
feststellen und so beim Ausfliegen aus dem Stock in den richtigen Winkel zur Sonne
umsetzen16.
Somit handelt es bei der „Bienensprache“ um ein symbolisches Kommunikationssystem –
eine „Tanzsprache“, deren Begriffe durch angeborene Verknüpfungen festgelegt sind und
verstanden werden.
Wenn wir uns anderen Tieren zuwenden, so können wir feststellen, daß für alle Wirbeltiere
charakteristisch ist, daß sie eine Anzahl von verschiedenen Lauten besitzen, die unter jeweils
spezifischen Bedingungen verwendet werden. Dabei scheint sowohl die Anzahl dieser
Vokalisierungen als auch ihre Verwendungen eher eingeschränkt zu sein. Trotzdem scheinen
manche Systeme von Primaten eine überraschende Komplexität aufzuweisen.
Die lautlichen Äußerungen von Vögeln17 bestehen aus Schreien und Gesängen. Die Schreie
können z.B. Warnungen etc. signalisieren und sie sind im Gegensatz zu den Gesängen
strukturell eher einfach. Die Gesänge können aber in geordnete Unterabschnitte zerlegt
werden, d.h. sie besitzen eine lineare Struktur. Jeder Unterabschnitt kann selbst wieder aus
einzelnen Noten bestehen. Die einzelnen Teile der Gesänge haben eine bestimmte
Reihenfolge, die offensichtlich nicht verändert wird. Zwar lassen sich bei manchen
Vogelarten Duette zwischen Männchen und Weibchen beobachten, doch scheinen diese
Gesänge keine Struktur außer eben das abwechselnde Singen aufzuweisen.
16 Der Sonnenstand kann auch bei Bewölkung bestimmt werden, da die Facettenaugen der Bienen das Polarisationsmuster des Sonnenlichts am Himmel wahrnehmen können. Da die Polarisationsmuster vom Sonnenstand abhängen, kann die Biene aus ihrer Wahrnehmung den jeweiligen Sonnenstand erschließen. 17 Vgl. zu diesem Abschnitt: Demers,R.A., 1988. Linguistics and animal communication. In: Newmeyer,F.J. (ed.) Linguistics: The Cambridge Survey. III Language: Psychological and Biological Aspects. CUP: 314-335
38
Weit verbreitet ist auch die Annahme, daß Wale und Delphine Sprache besitzen. Die
Vokalisierungen der Delphine bestehen aus Klicks, Bellen, Kläffen und Stöhnen. Die
Funktionen der verschiedenen Vokalisierungen sind allerdings noch nicht vollständig
erforscht. Zwar scheinen die Klicks hauptsächlich für die Echoortung verwendet werden,
doch wird auch eine kommunikative Funktion vermutet. Probleme hinsichtlich der Bedeutung
ergeben sich auch für die Pfiffe und das Quietschen, obwohl vorgeschlagen wurde, daß ein
jeder Delphin seinen individuellen Pfiff hat, der ihn identifiziert. Trotzdem bleiben mehr
Fragen als Antworten bezüglich der Struktur und der Bedeutungen in der Kommunikation
zwischen Delphinen.
Im Gegensatz dazu besitzt der Gesang des Buckelwals eine lineare Abfolge, denn er besteht
aus einer Reihenfolge von Teilen. Trotz verschiedener Erkenntnisse über die Struktur der
Walgesänge sind die Funktionen nicht bekannt.
Die Untersuchungen zu den Vokalisierungen der Affen haben gezeigt, daß sie einen relative
hohen Grad an Komplexität besitzen. So zeigte sich bei der Untersuchung der Meerkatzen,
daß diese Spezies eine Klasse von verschiedenen Warnschreien für verschiedene Arten von
Gefahren entwickelt haben. So lassen sich unterschiedliche Schreie beobachten für Gefahren
durch Schlangen, Leoparden (bzw. Raubtiere auf dem Boden) und Adler (bzw. Raubtiere aus
der Luft).
Für die meisten Tiere gilt, daß die akustische Strukturiertheit ihres vokalischen Repertoires
angeboren ist, und daß die Erfahrung kaum eine Rolle für Veränderungen der Strukturen im
Laufe der Entwicklung spielt. Dagegen wird die Verwendung von Vokalisierungen bei
einigen nicht-menschlichen Primaten und möglicherweise auch bei einigen Vogelarten18 stark
von der Erfahrung beeinflußt. Dabei ergeben sich Vorteile für jene Individuen, die neue
Verwendungsweisen von Typen bzw. Subtypen von Rufen/Schreien lernen können. Ganz
allgemein scheint aber die Anzahl der unterschiedlichen Signale im tierischen lautlichen
18 Vgl. Hauser,M.D., 1996. The Evolution of Communication. Cambridge, MA.
39
Repertoire begrenzt zu sein – obwohl es natürlich nicht leicht ist zu einer verläßlichen
Schätzung der Größe des Repertoires zu kommen.
Selbst wenn diese und andere tierische Kommunikationssysteme bestens erforscht sind, bleibt
dennoch die Frage bestehen, wie können wir feststellen, ob ein solches System jenem der
menschlichen Sprache entspricht.
3.3 Eine Definition von Sprache?
Was ist nun Sprache eigentlich? Wie läßt sich Sprache definieren? Mit diesen Fragen sollte
man sich beschäftigen, wenn man versucht festzustellen, ob eine tierische
Kommunikationsform als „Sprache“ bezeichnet werden kann. Wenn wir uns Definitionen von
Sprache ansehen, so läßt sich erkennen, daß oft verschiedene Merkmale des Begriffs Sprache
die Definition bestimmen. Einige Beispiele:
„The major perspective we adopt in this book regards a language as a cognitive system which
is part of any normal human being’s mental or psychological structure.“19 (p. 1)
„Language is a neurobehavioral, multidimensional system that provides for the construction
and use of symbols in a manner that enables the conveyance and receipt of information and
novel ideas between individuals. The meanings of symbols in this system are basically
defined and modulated through social interactions.“20 (p.309)
„Auf kognitiven Prozessen basierendes, gesellschaftlich bedingtes, historischer Entwicklung
unterworfenes Mittel zum Ausdruck bzw. Austausch von Gedanken, Vorstellungen,
Erkenntnissen und Informationen, sowie zur Fixierung und Tradierung von Erfahrung und
Wissen. In diesem Sinne bezeichnet S. eine artspezifische, nur dem Menschen eigene
Ausdrucksform, die sich von allen andere möglichen S., wie Tiersprachen, künstlichen
19 Radford, A. et al. 1999. Linguistics. An Introduction. Cambridge 20 Rumbaugh,D.M./Savage-Rumbaugh,E.S., 1994. Language in comparative perspective. In: Mackintosh,N.J. (ed.) Animal Learning and Cognition. New York: 307-333
40
Sprachen u.a. (...) unterscheidet durch Kreativität, die Fähigkeit zu begrifflicher Abstraktion
und die Möglichkeit zu metasprachlicher Reflexion. (...)“21
Diese Beispiele zeigen deutlich die verschiedenen Aspekte, die beim Versuch der Definition
von Sprache eine Rolle spielen können. In allen finden wir einen kognitiven Aspekt, aber es
werden noch weitere hervorgehoben, wie z.B. die Verwendung von Symbolen oder der
Austausch von Information und Wissen zwischen den mit Sprache Kommunizierenden. Im
letzten – dem ausführlichsten – Beispiel werden auch Merkmale angesprochen, die auf
mögliche Unterschiede zwischen der menschlichen Sprache und anderen auch als
„Sprache(n)“ bezeichneten Kommunikationsformen hinweisen.
Die in den jeweiligen Definitionen hervorgehobenen Merkmale von menschlicher Sprache
lassen sich zum größten Teil auf Versuche zurückführen, die Sprache nicht definieren zu
wollen, sondern zu versuchen allgemeine Merkmale festzustellen, die für diese Art von
Sprache charakteristisch sind.
Den detailliertesten Ansatz dazu lieferte Hockett (1963)22, indem er 16 Merkmale bzw.
„design features“ zur Charakterisierung der gesprochenen menschlichen Sprache auflistete (s.
Abb. 15):
1) Vocal-auditory channel (Sprechen und Hören), 2) Broadcast transmission and directional
reception (das gesprochene Signal verbreitet sich in alle Richtungen, aber die Quelle kann
lokalisiert werden), 3) Rapid fading (einmal ausgesprochen verschwindet das Signal rasch), 4)
Interchangeability (jeder kann Sender oder Empfänger sein), 5) Complete feedback (Sprecher
haben Zugang zur ihrer gesamten Produktion), 6) Specialization (die Energie im Signal ist
unwichtig – ein Wort bedeutet dasselbe, ob nun laut oder leise gesprochen), 7) Semanticity
(die Signale haben Bedeutung), 8) Arbitrariness (die Symbole sind abstrakt; mit Ausnahme
einiger onomatopoetischer Wörter), 9) Discreteness (das Vokabular besteht aus diskreten
21 Bußmann,H. 19902 Lexikon der Sprachwissenschaft. sv. „Sprache“; Stuttgart. Anzumerken ist, daß noch weitere spezifische Definitionen angeführt werden.
41
Einheiten), 10) Displacement (man kann über Dinge sprechen, die räumlich und zeitlich
entfernt sind), 11) Openness (die Möglichkeit neue Botschaften zu erzeugen – Kreativität),
12) Tradition (Sprache wird von Generation zu Generation weitergegeben), 13) Duality of
patterning (nur Kombinationen von an sich bedeutungslosen Elementen ergeben Bedeutungen
– einzelne Laute besitzen keine Bedeutung, aber in Kombination entsteht Bedeutung: [k], [i],
[n], [d] – [kind]), 14) Prevarication (Sprache gibt uns die Möglichkeit zu lügen und zu
täuschen), 15) Reflectiveness (wir können mit Sprache über Sprache reden – Metasprache),
16) Learnability (der Sprecher einer Sprache kann eine andere erlernen).
Diese Merkmale beziehen sich – wie bereits erwähnt – auf die gesprochene Sprache, denn für
die geschriebene Sprache gilt wohl nicht, daß das Signal rasch verschwindet, aber trotzdem
wird kaum jemand bezweifeln, daß geschriebene Sprache nicht ebenfalls als Sprache zu
bezeichnen ist. Andererseits aber bieten die „design features“ einen brauchbaren Rahmen
dafür, in welchen Eigenschaften sich die tierischen Kommunikationssystem von der
menschlichen Sprache unterscheiden.
Im vorigen Abschnitt haben wir bereits einige Aspekte tierischer Kommunikationsformen
besprochen und bei Betrachtung der „design features“ können wir feststellen, dass viele auch
auf diese Arten von Kommunikation zutreffen, wie z.B. Arbitrarität („arbitrariness“) und
Semantizität („semanticity“): Das Tanzen der Bienen besitzt beides – und noch weitere, wie
z.B. „displacement“ (die Futterquelle ist räumlich entfernt). Auch haben wir gesehen, daß
einige Primaten (z.B. bestimmte Lemurenarten, Rhesusaffen, Meerkatzen) Vokalisierungen
produzieren, die eine funktionale Referenz aufweisen, indem sie die anderen über spezifische
Objekte und Ereignisse – Futter(plätze) und Raubtiere – benachrichtigen. Übrigens können
solche Nachrichten auch von einer Vogelart – den Haushühnern – übermittelt werden. Die
tatsächliche Verwendung der entsprechenden Vokalisationen hängt allerdings häufig davon
ab, dass andere Primaten bzw. Hühner anwesend sind, denn fehlen die Hörer, dann wird trotz
22 Hockett,C.F., 1963. The problem of universals in language. In: Greenberg, J.H. (ed.) Universal of Language.
42
der Anwesenheit eines Raubtieres kein Alarmruf ausgestoßen. Dies weist doch darauf hin,
daß erkannt wurde, daß Warnungen nur dann einen Sinn haben, wenn sie ihrer sozialen
Funktion gerecht werden. Natürlich können und sollten auch die verschiedenen tierischen
Kommunikationsformen noch genauer auf das Vorhandensein von „design features“
untersucht werden, vor allem auch deswegen, weil häufig darauf hingewiesen wird, daß das
menschliche Sprachverhalten durch das Bewußtsein von Wünschen und Intentionen gesteuert
wird, und daß auch die Möglichkeit der sprachlichen Kreativität ein wesentliches Merkmal
darstellt. All dies scheinen tierischen Kommunikationsformen nicht zu besitzen23. Trotzdem
ist es nicht auszuschließen, daß der Unterschied zwischen den tierischen
Kommunikationssystemen und der Sprache nur ein gradueller sein könnte.
3.4 Können Tiere Sprache lernen?
Obwohl Tiere ihre eigenen Kommunikationssysteme besitzen, wurde bzw. wird immer wieder
versucht, verschiedenen tierischen Spezies – im besonderen verschiedenen Primatenarten –
Sprache bzw. sprachähnliche Kommunikationssysteme beizubringen. Schließlich geht es
dabei auch um die grundsätzliche Frage, ob Tiere die biologischen und kognitiven
Voraussetzungen für das Erlernen von Sprache besitzen, es aber für sie aber im Laufe der
Evolution nicht notwendig war. Andererseits geht es auch darum, ob möglicherweise nur die
Menschen die für die Sprache notwendigen Fähigkeiten besitzen.
Wie jeder weiß, kann man Papageien sprechen beibringen. Daher lag es auch nahe, sich dieser
Fähigkeit zu bedienen, um zu untersuchen, in welchem Ausmaß ein Papagei eine Sprache
erlernen kann. Beim „Versuchskaninchen“ handelte es sich um einen afrikanischen
Cambridge, Mass. 23 Häufig wird auch darauf hingewiesen, daß es die Eigenschaften und Möglichkeiten, die die Syntax der Sprache bietet, sind – also z.B. die durch die Kombination von Wörtern entstehenden neuen Bedeutungen, die die Sprache von tierischen Kommunikationssystemen unterscheidet. Vgl. dazu: Kako,E., 1999a. Elements of syntax in the systems of three language trained animals. Animal Learning and Behavior 27: 1-14
43
Graupapagei (Psittacus erithacus)24 namens Alex, der einem entsprechend umfangreichen
Lernprogramm unterzogen wurde. Nach 13 Jahren besaß Alex ein Vokabular von ca. 80
Wörtern, darunter Objektbezeichnungen, Adjektive und Verben. Er war in der Lage kurze
Folgen von Wörtern zu produzieren und auch zu verstehen. Weiters konnte Alex 40 Objekte
nach ihren Farben und auch danach, woraus sie bestanden, ordnen. Er verstand auch das
Konzept gleich – verschieden und konnte bis 6 zählen. Zwar schien Alex in der Lage
syntaktische Kategorien entsprechend zu verwenden, aber er kannte nur wenige Verben und
schien auch nicht in der Lage zu sein, Verben und Objekte zu einander in Beziehung zu setzen
zu können. Außerdem besaß er nur wenige Funktionswörter, die ja für den Aufbau der
Beziehungen in Sätzen notwendig sind (Kako, 1999a25). Aus letzteren Beobachtungen wurde
nun geschlossen, daß Alex nur äußerst beschränkte sprachliche Fähigkeiten aufwies.
Trotzdem ist nicht zu übersehen, daß Alex zumindest rudimentäre sprachliche Fähigkeiten
erlernt hatte, wenn auch die Dauer der Lernphase in Hinblick auf die resultierenden
Fähigkeiten im Vergleich zum menschlichen Erstsprach(en)erwerb und auch zum –
wahrscheinlich der adäquatere Vergleich – dem menschlichen Zweitsprach(en)erwerb doch
sehr lang war.
Zwar wurde auch versucht anderen Tieren, z.B. Delphinen26, Sprache beizubringen, doch die
meisten Versuche beschränkten sich auf Primaten.
3.4.1 „Sprechende“ Menschenaffen
Die Frage nach der Sprachfähigkeit von Primaten hat eigentlich eine lange Tradition, denn sie
beginnt schon mit den Postulaten Darwins im 19. Jhdt. bezüglich der biologischen und
24 Pepperberg,I.M., 1983. Functional vocalizations by an African grey parrot (Psittacus erithacus). Zeitschrift für Tierpsychologie 55: 139-160; dies. 1983. Cognition in the African grey parrot: Preliminary evidence for auditory/vocal comprehension of the class concept. Animal Learning and Behavior 11: 179-185; dies. 1987. Acquisition of the same/different concept by an African grey parrot (Psittacus erithacus): Learning with respect to categories of color, shape, and material. Animal Learning and Behavior 15: 423-432 25 s. Kako Fn. 23) 26 s. z.B.: Herman,L.M./Richards,D.G./Wolz,J.P., 1984. Comprehension of sentences by bottlenosed dolphins. Cognition 16: 129-219
44
psychologischen Kontinuität zwischen Affen und den Menschen. Und sie setzt sich fort in den
neueren Erkenntnissen darüber, daß etwa die DNA der Schimpansen (Pan) der des Menschen
ähnlicher ist als die DNA der Gorillas (Gorilla)27. Weiters wurde auch festgestellt, daß die als
Planum temporale bezeichnete Hirnwindung im Schläfenlappen des Schimpansen in der
linken Hemisphäre vergrößert ist, was auch für die meisten Menschen gilt, wo das Planum
temporale einen Teil Wernicke-Areals bildet und offensichtlich liegt auch eine
stammesgeschichtlich ähnliche Entwicklung vor28. Ausgehend von der Überlegung, daß eine
unabhängige parallele Entwicklung im Laufe der Evolution eher unwahrscheinlich ist, kann
man annehmen, daß diese cerebrale Asymmetrie bereits bei den gemeinsamen Vorfahren von
Menschen und Schimpansen (vor ca. 8 Mill. Jahren) entwickelt war. Da nun dieser Bereich
eine wichtige Rolle für die Sprache spielt, stellt sich die Frage, ob die Entwicklung des
Planum temporale beim Schimpansen ein Hinweis auf ein sprachliches Potential darstellt.
Was allerdings voraussetzt, daß die Funktion des Planum temporale in Beziehung zur Sprache
steht.
Der erste ernsthafte Versuch einem Menschenaffen Sprechen beizubringen, war jener von
Furness29 (1916) mit einem Orang-Utan (Pongo pygmaeus), der allerdings nur vier Wörter
äußerst schlecht produzieren konnte. In einem weiteren Versuch wuchs eine Schimpansin,
Gua, zusammen mit dem Sohn, Donald, der Forscherfamilie auf (Kellogg/Kellogg, 193330).
Gua konnte nicht sprechen und verstand auch nur einige Wörter, aber sonst entsprach ihre
Entwicklung in etwa jener von Donald. Am bekanntesten von den Versuchen Schimpansen
das Sprechen beizubringen, ist jener von Hayes (195131), in dem die Schimpansin Vicki wie
ein Kind aufgezogen wurde. Auch in diesem Fall war es nicht möglich Vicki das Sprechen
27 Sibley,C.C./Ahlquist,J.E., 1987. DNA hybridization evidence of hominoid phylogeny: Results froman expanded data set. J. of Molecular Evolution 26: 99-121 28 Gannon,P.J./Holloway,R.L./Broadfield,D.C./Braun,A.R., 1998. Asymmetry of chimpanzee planum temporale: Human-like pattern of Wernicke’s brain language area homolog. Science 279: 220-222 29 Furness,W.H., 1916. Observations on the mentality of chimpanzees and orang-utans. Proceedings of the American Philosophical Society 55: 281-290 30 Kellog,W.N./Kellogg,L.A., 1933. The ape and the child. New York 31 Hayes,C., 1951. The ape in our house. New York
45
beizubringen, so blieb auch ihr produktives Vokabular auf vier – nur sehr schlecht
verständlichen – Wörtern stehen: „mama, papa, cup“ und „up“. Allerdings konnte sie nach
intensivem Üben doch einzelne Wörter und sogar einige Wortkombinationen verstehen.
Diese Versuche fanden noch statt, bevor man herausfand, daß die neuronalen und
anatomischen Einschränkungen des Vokaltrakts der Menschenaffen die Produktion von
Sprachlauten nicht ermöglichen (s. Abb. 16). Wir finden nur beim (erwachsenen) Menschen
einen entsprechend großen Mundrachen, der zusammen mit ihrer neuronalen Versorgung den
Artikulationsorganen die notwendige Beweglichkeit für die Produktion der Sprachlaute
erlaubt. Diese anatomischen Gegebenheiten lassen sich bei den Primaten nicht feststellen und
auch noch nicht – im selben Ausmaß – bei Säuglingen, deren Kehlkopf so hoch steht, daß der
Kehldeckel direkt an das gesenkte Velum anschließt. Das bedeutet, daß Säuglinge noch
gleichzeitig atmen und schlucken können, da die Atmung über die Nase erfolgt, für die der
Eingang zum Kehlkopf offen ist, und die Nahrung um den Kehlkopf herum in die hinten
liegende Speiseröhre gelangen kann.
Diese Erkenntnisse über die physiologischen Einschränkungen der Primaten in bezug auf die
Produktion von Sprachlauten führten dazu, daß man nach anderen Möglichkeiten suchte, um
dieser Spezies von Menschenaffen Sprache bzw. sprachähnliche Kommunikationssysteme
beizubringen.
So begannen etwa um 1965 zwei wichtige Projekte mit Schimpansen, die ein nicht-
lautsprachliches Kommunikationssystem erlernen sollten: das Projekt Washoe
(Gardner/Gardner, 196932) und das Projekt Sarah (Premack, 197133).
Washoe
Die Gardners gingen davon aus, daß Washoe, die wie ein Kind aufgezogen wurde, in diesem
Umfeld American Sign Language erwerben könnte. (American Sign Language ist jene
32 Gardner,R.A./Gardner,B.T., 1969. Teaching sign language to a chimpanzee. Science 165: 664-672 33 Premack,D., 1971. On the assessment of language competence in the chimpanzee. In: A.M. Schrier/F. Stollnitz (eds.) Behavior of Nonhuman Primates. Vol.4. New York: 185-228
46
Gebärdensprache, die von Gehörlosen und Leuten mit Hörstörungen als Standardsprache in
den USA verwendet wird.) Es wurde also eine natürliche Sprache verwendet und nicht zuletzt
deswegen, weil damit das, was Washoe lernte, eine Sprache war, und weiters versuchte man
mit dieser Methode auch Diskussionen darüber, ob die Leistungen Washoes nun sprachlicher
Natur sind oder nicht, hintanzuhalten.
Mit 4 Jahren konnte Washoe ca. 84 Gebärden aktiv produzieren, aber mehr verstehen. Einige
Jahre später besaß sie ein Vokabular von ca. 150 – 200 Gebärden34, wobei viele verschiedene
syntaktische Kategorien auftraten, wie Nomen, Verben, Adjektive, Pronomen und auch
Verneinungen. Außerdem wurde auch darauf hingewiesen, daß sie, wenn sie für etwas noch
keine Gebärde hatte, eine neue „erfand“. So produzierte Washoe als sie das erste Mal eine
Ente sah, eine Phrase aus zwei Gebärden, die sie kannte, nämliche „Wasser“ und „Vogel“.
Weiters kombinierte sie bis zu fünf Gebärden zu korrekten Abfolgen. Sie konnte auch auf
einige Fragen antworten, die durch Fragewörter eingeleitet waren. Weiters konnte sich auch
zwischen den Abfolgen der einzelnen Elemente in Sätze wie „You tickle me“ und „I tickle
you“ unterscheiden
Ein interessante Beobachtung war auch, daß Washoes Adoptivsohn Loulis spontan Gebärden
erwarb, deren Verwendung er bei Washoe gesehen hatte, und daß Washoe ihm auch Gebärden
beibrachte. Dies deutet auf eine Weitergabe von kulturellen Aspekten hin, was auch im o.e.
„design feature“ tradition enthalten ist.
Wenn wir einmal von einer Diskussion darüber, ob nun Washoe tatsächlich Sprache erworben
hat, absehen – wir kommen später noch auf diese Problematik zurück –, dann bleiben doch
einige wichtige Erkenntnisse bestehen: Washoe erlernte eine große Anzahl von manuellen
Zeichen, wobei sie einige selbst „erfand“ (s.o.) und sie verwendete auch Gebärden, wenn sie
allein Zeitschriften anschaute oder spielte.
Sarah
47
Premack ging einen anderen Weg, indem er Plastikkärtchen in verschiedenen Formen und
Farben verwendete, die die Funktionen von Wörtern hatten. Dieses Kommunikationssystem
war also ein eher synthetisches denn ein natürliches. Diese Symbole konnten nach bestimmten
Regeln angeordnet werden – Symbole und Regeln ergeben die Sprache „Premackisch“
(„Premackese“). Durch die Aneinanderreihung von einzelnen Plastikkärtchen produzierte
Sarah einfache Konzepte, die einfache Objekte und Handlungen darstellten (s. Abb. 17). Sie
konnte aber auch Sätze mit den logischen Konnektiven „wenn – dann“ produzieren, und auch
Symbole verwenden, die „...ist die Bezeichnung für“ („...is the name of“) bedeuteten.
Die von Premack verwendeten Methoden vereinfachten zwar die „sprachlichen“ Operationen,
aber sie deuten auch darauf hin, daß Sarah eher keine Sprache erlernt hatte, sondern gute
Problemlösungsfähigkeiten entwickelt hatte35. Was Sarah (und andere Schimpansen in diesem
Projekt) gelernt hatten, war der Umgang mit einem synthetischen Kommunikationssystem,
wobei sie auch zeigten, daß sie in der Lage waren geordnete Beziehungen zwischen Items
herzustellen und sie konnten auch – im Rahmen dieser Methoden – die Funktion und
Verwendung von Wörtern wiedergeben, und zwar u.a. im Rahmen von Beurteilungen nach
dem Schema „gleich oder verschieden“36. Zwar sind die Fähigkeiten der Schimpansen in
diesem Projekt sehr beeindruckend, ob sie als sprachlich zu bezeichnen sind, ist allerdings
eher fraglich, da ja Premack selbst zum Schluß kam, daß seine Versuche den Schimpansen
keine menschliche Sprache beibrachten, sondern eher ihre Fähigkeiten verbesserten Probleme,
die Repräsentationen einschlossen, zu lösen37.
Lana
In den 1970ern begannen Rumbaugh und Kollegen das Projekt LANA. Neu an diesen
Versuchen war, daß ein computergesteuertes Keyboard verwendet wurde, wobei jede Taste
34 Fouts,R.S./Shapiro,G./O’Neil,S. 1978. Studies of linguistic behavior in apes and children. In: P. Siple (ed.) Understanding Language through Sign Language Research. London: 163-185 35 Terrace,H.S., 1979. Is problem-solving a language? J. of the Experimental Analysis of Language 31: 161-175 36 Oden,D.L./Thompson,R.K.R./Premack,D., 1990. Infant chimpanzees spontaneously perceive both concrete and abstract sam/different relations. Child Development 61: 621-631
48
ein unterschiedliches geometrisches Muster – als Lexigramm (s. Abb. 18) bezeichnet –
aufwies38. Das Ziel dieses Projekts war nicht, die sprachliche Kompetenz eines Schimpansen
festzustellen, sondern zu untersuchen, inwieweit ein computergesteuertes
Sprachtrainingssystem verbessert werden könnte, um die Forschung in jenen Bereichen
voranzutreiben, wo die Lern- und Sprachfähigkeit beschränkt sind, entweder aus genetischen
Gründen oder aufgrund von erworbenen Hirnschädigungen.
Mittels der üblichen operanten Konditionierung wurde Lana ein Grundstock von Sätzen
beigebracht, die vom Computerprogramm akzeptiert wurden. Die korrekten Verwendungen
der Tastenkombinationen wurden mit den entsprechenden Getränken, Nahrungsmitteln, einem
Film oder der Hilfestellung durch eine Person usw. „belohnt“. Das Projekt ging bis in die
späten 1970er als Lana schließlich Mutter wurde. Zu den wichtigen Ergebnisse dieses
Projekts zählen u.a. die folgenden39: Computerkeyboards erleichterten die objektivierten die
Untersuchung der sprachlichen Fähigkeiten der Menschenaffen; Lana lernte bereitwillig die
Lexigramme und ihre Verwendungsweisen entsprechend der vom Computer vorgegebenen
Grammatik; Lana verwendete die Lexigramme in innovativer Weise, um
Kommunikationsprobleme zu lösen; Lana konnte mit Hilfe der Lexigramme Objekte
benennen, die sie nicht sehen aber mit ihrer Hand ertasten konnte; weiters konnte sie auch
nach Dingen Fragen, für die sie keine Lexigramm hatte, so bezeichnete sie eine Gurke als eine
„banana which-is green“40, und gelegentlich fragte sie auch nach der Bezeichnung von
Dingen, die sie dann weiterhin verwendete, um diese Dinge zu erbitten. Das Projekt Lana war
der Ausgangspunkt für die Projekte Sherman und Austin (Rumbaugh und Savage-Rumbaugh)
und für weitere Projekte mit anderen Menschenaffen
37 Premack,D., 1983. Animal cognition. Annual Review of Psychology 34: 352-362 38 Rumbaugh,D.M. (ed.), 1977. Language learning by a chimpanzee: The LANA project. New York 39 vgl. dazu: Rumbaugh,D.M./Savage-Rumbaugh,E.S., 1994. Language in comparative perspective. In: N.J. Mackintosh (ed.) Animal Learning and Cognition. New York: 307-333 40 s.o. p. 314
49
Weitere Projekte
Weitere Projekte, die die Gebärdensprache als Medium verwendeten, waren das Projekt
Nim41, ein Schimpanse, („Nim Chimpsky“ ein Wortspiel zu Noam Chomsky), das Projekt
Chantek42, ein Orangutan, und die Fortführung des Projekts Washoe43. Beim Erlernen der
einzelnen Handformen der Gebärdensprache wurde von den Trainern auch „nachgeholfen“,
indem sie die mit den Händen der Affen die entsprechenden Gebärden formten. Die Tiere
lernten zuerst, wie eine Gebärde aussieht, und danach, wann sie in Verbindung mit einem
Ereignis oder Gegenstand zu verwenden ist. Diese Strukturierung des Lernens, die sehr stark
vom Behaviorismus beeinflußt ist, läßt eine Frage offen: Wußten die Tiere eigentlich, was sie
gebärdeten, d.h. kannten sie die Bedeutung der Zeichen, wußten sie, was diese Zeichen
darstellten? Schließlich ist ein zentrales Merkmal jeder natürlichen Sprache, daß sie
Bedeutungen vermittelt, und daß die Benutzer sich (mehr oder weniger) bewußt sind, daß sie
mit der Verwendung von sprachlichen Zeichen bestimmte Inhalte vermitteln. Diese Frage
nach dem „Wissen“ um die Bedeutung der Gebärden der „sprechenden“ Menschenaffen
wurde bei den o.e. Untersuchungen eigentlich nicht gestellt. Zwar wurde aus einzelnen
Gebärdenverwendungen in neuen Situationen das Wissen um die Bedeutung abgeleitet, oder
die Frage wurde weggeschoben, da es Probleme mit den Untersuchungsmethoden gab, die für
diese Zwecke bei „nicht-sprachlichen“ Versuchspersonen anzuwenden wären.
Das Projekt Nim begann mit allergrößtem Optimismus, der sogar so weit ging, daß man
hoffte, daß über kurz oder lang Nim über sein eigenes Leben berichten würde. Detaillierte
Untersuchungen von Nims – oft sehr langen – Kombinationen von Gebärden wiesen nach
(Terrace s. Fn. 41) allerdings nicht mehr Information auf als ein oder zwei Gebärden es getan
41 s. Terrace,H.S./Petitto,L.A./Sanders,R.J./Bever,T.G., 1979. Can an ape create a sentence?. Science 206: 891-902 42 Miles,H.L.W., 1990. The cognitive foundations for reference in a signing orangutan. In: S.T. Parker/K.R. Gibson (eds.) „Language“ and intelligence in monkeys and apes: Comparative developmental perspectives. New York: 511-539 43 s. Fouts,R.S./Fouts,D.H., 1989. Loulis in conversation with the cross-fostered chimpanzees. In: R.G. Gardner./B.T. Gardner/T.E. Van Cantfort, (eds.) Teaching sign language to chimpanzees. New York: 293-307
50
hätten. Ähnliche Untersuchungen von Bändern von anderen Schimpansen bei der
Verwendung der Gebärdensprache kamen ebenfalls zu dem Ergebnis, daß im Grunde
genommen weder Nim noch die anderen eine Sprache besäßen. Die Verwendung der
Gebärden durch Washoe, Koko44 (einem Gorilla) und den anderen „gebärdenden“
Menschenaffen sei eben nichts anderes als eine Imitation der Gebärden, deren Verwendung
sie bei anderen gesehen hatten. Diese Ansicht löste eine dementsprechende Aufregung bei
jenen aus, die sich - zumeist mit größtem Engagement – um die einzelnen Projekte
gekümmert hatten. Trotzdem wurden die Ansichten von Terrace und Kollegen45 zur
vorherrschenden Meinung, daß nämlich aufgrund der Analysen von Nims „Äußerungen“ und
jenen der anderen gebärdenden Menschenaffen im Labor von Terrace diese Primaten keine
sprachliche Kompetenz aufweisen, sondern nur imitieren, und daß Sprache über die
Leistungsfähigkeit der Primaten hinausgehe. Die Daten aus dem Projekt Lana waren in den
diesen Schlußfolgerungen zugrunde liegenden Untersuchungsergebnissen nicht einbezogen.
Die Ergebnisse dieses Projekts wurde so erklärt, daß es sich dabei um Auswendiggelerntem
handelt, das von den Schimpansen in der jeweiligen Situation wiedergegeben wird. Diese
Interpretation scheint allerdings etwas zu kurz zu greifen, da Lana in neuen Situationen die
gelernten „Basissätze“ variierte, um auf diese Situationen einzugehen46. Wenn auch nicht alle
Analysen der „Imitationsinterpretation“ zustimmten47, waren diese Ansichten in diesen Jahren
der „Mainstream“, was die „sprechenden“ Menschenaffen anbelangte.
Kanzi
44 Patterson,F.L., 1990. Language acquisition by a lowland gorilla: Koko’s first ten years of vocabulary development. Word 41: 97-143 45 s. auch: Terrace,H.S., 1982. Why Koko can’t talk. Sciences (New York) 22 (9): 8-9; ders. 1985. In the beginning was the „name“: Amersican Psychologist 40: 1011-1028; Seidenberg,M.S./Petitto;L.A., 1987. Communication, symbolic communication, and language: Comment on Savage-Rumbaugh, McDonald, Sevcik, Hopkins and Rubert. J. of Experimental Psychology: General 116: 279-287 46 s. Fn. 38, Rumbaugh 1977. 47 Miles,H.L.W., 1990. The cognitive foundations for reference in a signing orangutan. In: S.T. Parker/K.R. Gibson (Eds.), „Language“ and intelligence in monkeys and apes: Comparative developmental perspectives. New York: 511-539
51
Bei den in den erwähnten Studien mit Schimpansen gehörten die Versuchstiere der Spezies
Pan troglodytes (die etwas größere Art) an. Vergleichende Untersuchungen weisen aber
darauf hin, daß eine andere Art von Schimpansen, die Bonobos (Pan paniscus), ein reicheres
soziales Leben und ein umfangreicheres natürliches kommunikatives Repertoire aufweisen.
Auf den Bonobo Kanzi (s. Abb. 1948) wurde die Gruppe um Savage-Rumbaugh aufmerksam,
weil er offensichtlich spontan die Bedeutungen der Lexigramme erlernte und später auch
gesprochene Sprache – einzelne Wörter und noch nicht gehörte Aufforderungssätze – zu
verstehen lernte49. Dies wurde während der Arbeit mit Matata, Kanzis Adoptivmutter,
entdeckt. Obwohl Kanzi während der Übungssitzungen mit Matata immer anwesend war,
wurde er nicht gesondert unterrichtet. Nachdem er von ihr getrennt worden war, wurde
deutlich, was er gelernt hatte. Er begann u.a. spontan zu bitten, nach spezifischem Essen und
Trinken zu fragen und Objekte zu benennen. Von da an wurde Kanzi in einer Umgebung
aufgezogen, die mehr an sprachlichen Stimuli bot. Er lernte durch Beobachtung schnell, wie
man danach fragt, um zu speziellen Plätzen im Wald zu kommen, oder auch wie man
entsprechende Nahrung erhält und auch wie man Spiele spielt. Im Gegensatz zu den anderen
Primaten begann Kanzi gesprochene Sprache zu verstehen, und zwar nicht nur Wörter,
sondern auch Sätze.
In der Folge wurde nun Kanzis Sprachverständnis mit dem eines 21/2jährigen Kindes
verglichen – Kanzi war 8 Jahre alt. Diese Tests enthielten noch nicht geübte Aufgaben wie ein
spezifisches Objekt an einen bestimmten Ort oder einer bestimmten Person zu bringen, oder
mit einem spezifischen Objekt etwas in Bezug zu einem anderen Objekt zu tun (z.B. „Put a
rubber band on your ball“). Das Ergebnis war, daß sowohl Kanzi als auch Alia ca. 70% der
Aufgaben richtig durchführten. Es wurde auch deutlich, daß Kanzi wesentlich mehr verstehen
konnte, als er produzieren konnte. Sein Verständnis entsprach also in etwa jenem eines
48 Coverphoto des Buchs: Savage-Rumbaugh,S./Shanker,St.G./Taylor,T.J., 1998. Apes, Language, and the Human Mind. Oxford
52
21/2jährigen Kindes und seine Produktion der eines 1-11/2jährigen50. Diese Ergebnisse wurden
auch mit zwei weiteren Schimpansen wiederholt51.
Trotz dieser beeindruckenden Fähigkeiten der Versuchstiere bleiben doch einige Fragen
hinsichtlich der Beziehung dieser Fähigkeiten zur menschlichen Sprache offen. Da ist einmal
die Frage nach der Bedeutung: Besitzen die Symbole für die Versuchstiere dieselben Aspekte
der Bedeutung wie die sprachlichen Symbole für den Menschen? D.h. üblicherweise ist die
Bedeutung eines Wortes in ein Netz von Bedeutungsrelationen eingebettet. Es bestehen
Beziehungen der Überordnung, der Unterordnung, der Bedeutungsähnlichkeit, der
Bedeutungsgegensätzlichkeit, der Inkompatibilität usw. So wissen wir z.B., daß ein Baum
eine Pflanze ist, daß eine Tanne ein Baum ist, daß eine Fichte einer Tanne hinsichtlich
bestimmter Eigenschaften ähnlich ist, daß eine Birke zwar auch ein Baum ist aber andere
Merkmale aufweist als eine Tanne usw. Aus den o.e. erwähnten Beispielen der Verwendung
von Symbolen durch die Versuchstiere dürfte wohl klar geworden sein, daß die von den Affen
benützen Symbole keine so reiche semantische Struktur aufgewiesen haben. Zwar schienen
Sherman uns Austin, zwei Schimpansen (Pan troglodytes) im Savage-Rumbaugh Programm,
in der Lage zu sein, die Lexigramme von nicht vorhandenen Objekte ihrem übergeordneten
Symbol zuzuordnen (z.B. „apple“, „banana“ und „strawberry“ zu „fruit“). Allerdings wurde
diese Fähigkeit durchaus kontroversiell diskutiert52. Auf jeden Fall haben die Schimpansen
gelernt eine Beziehung zwischen den Symbolen und ihren Referenten in der Welt
herzustellen, aber inwieweit sie auch erlernt haben, weitere Beziehungen zwischen den
Symbolen herzustellen, ist zumindest fraglich.
49 Savage-Rumbaugh,E.S./Murphy,J./Sevcik,A./Brakke,K.E./Williams,S./Rumbaugh,D., 1993. Language comprehension in ape and child. Monographs of the Society for Research in Child Development no. 233, 58: 3-4 50 Greenfield,P.M./Savage-Rumbaugh,E.S., 1993. Comparing communicative competence in child and chimp: The pragmatics. J. of Child Language 20: 1-26 51 Savage-Rumbaugh,E.S./Lewin,R., 1994. Kanzi: The Ape at the Brink of the Human Mind. New York 52 Seidenberg,M.S./Petitto,L.A., 1987. Communication, symbolic communication, and language: Comment on Savage-Rumbaugh, Macdonald,Sevcik,Hopkis, and Rubert (1986). J. of Experimental Psychology: General 116: 279-287; Savage-Rumbaugh, E.S., 1987. Communication, symbolic communication , and language: A reply to Seidenberg and Petitto. J. of Experimental Psychology: General 116: 288-292
53
Einen weiteren Aspekt hinsichtlich Untersuchung der sprachlichen Fähigkeiten der Affen
stellen ihre syntaktischen Fähigkeiten dar. Läßt es sich nachweisen, daß die untersuchten
Affen die erlernten Symbole in einer ähnlichen auf Regeln basierenden Weise mit einander
verbinden, wie es in der Syntax der menschlichen Sprache erfolgt? Schließlich ist der Mensch
in der Lage aufgrund einer beschränkten Anzahl von Regeln eine potentiell unendliche
Anzahl von Sätzen zu erzeugen. Weiters kommt noch hinzu, dass für den Menschen
erkennbar ist, daß Sätze wie a) „Die Katze kratzt den Hund.“ und b) „Der Hund wird von der
Katze gekratzt.“ in einer Beziehung zu einander stehen, oder daß c) „Der Hund beißt den
Briefträger.“ dieselbe Struktur wie a) hat. Die o.e. Untersuchungen weisen allerdings nicht
darauf hin, daß die Versuchstiere eine entsprechende syntaktische Kompetenz entwickelt
hatten, wie sich auch bei Kanzi, dem Bonobo mit den wohl erstaunlichsten Leistungen, zeigt,
dessen eine Entwicklung im produktiven Bereich ca. dem eines 1-11/2jährigen Kindes
entsprechen soll.
Einleitend wurde bereits darauf hingewiesen, daß es das Erkennen der anatomischen und
neuronalen Einschränkungen war, das dazu führte, daß die Versuche den Menschaffen
Sprechen beizubringen nicht mehr fortgeführt wurden. Zieht man also auch den
neuroanatomischen Aspekt in Betracht, wozu auch gehört, daß die Größe des Gehirns der
Schimpansen nur etwa 1/3 der Größe des menschlichen ausmacht, so sollte man sich
überlegen, ob die Frage „Können Menschenaffen eine/die menschliche Sprache erwerben?“
eigentlich richtig gestellt ist. Vielleicht wäre es besser zu formulieren: „Welche Aspekte der
menschlichen Sprache können die Menschenaffen erwerben?“
54
4 Sprachproduktion
4.1 Allgemeines
In diesem Abschnitt wollen wir uns mit der Produktion von Sprache beschäftigen. Dabei
sollen – zumindest in diesem Rahmen – die Aktivitäten im Mittelpunkt stehen, die zur
Produktion von gesprochener Sprache führen. Gleich zu Beginn gilt es anzumerken, daß es
wesentlich weniger Untersuchungsmaterial zu diesem Thema gibt als zur Perzeption und zum
Verständnis von Sprechen und Sprache. Diese Unausgewogenheit hängt damit zusammen,
daß es deutlich schwieriger ist den Input für Experimente zur Produktion zu kontrollieren als
etwa den Input für entsprechende Experiment zum Sprachverstehen. So läßt sich z.B. bei
Worterkennungsexperimenten relativ leicht die Häufigkeit, die Bildhaftigkeit, bzw. weitere
wichtig erscheinende Aspekte der verwendeten Wörter kontrollieren. Der der Produktion
zugrunde liegende Inhalt – die Gedanken – sind wesentlich schwieriger experimentell zu
kontrollieren.
Beim Prozeß der Sprachproduktion lassen sich verschiedene, große Bereiche unterscheiden,
wobei allerdings bereits vorher die Entscheidung gefallen sein muß, daß der Sprecher etwas
sagen möchte, wo und wann er seinen Beitrag in die Kommunikation einbringen möchte und
auch an wen (bei mehreren Kommunikationsteilnehmern) er ihn richten möchte:
Der Sprecher muß sich im klaren darüber sein, worüber er sich äußern möchte, und
wie er sich darüber äußern möchte: Will er erzählen, berichten, argumentieren oder
will er zu einer Handlung auffordern? Dieses Ergebnis der Planung der
Kommunikation wird als Quaestio bezeichnet53.
In einem nächsten Schritt muß ausgewählt werden, welche Teile des für die Äußerung
gewählten Themas auch tatsächlich geäußert werden sollen und welche nicht. Die zu
äußernde Information muß in entsprechende Einzelteile zerlegt werden und diese
müssen in eine passende Reihenfolge gebracht werden. Diese Aktivitäten werden auch
55
als Makroplanung bezeichnet. Den nächsten Schritt bildet die sogenannte
Mikroplanung. In diesem Stadium werden die einzelnen Teile der Makroplanung noch
„verfeinert“, indem die einzelnen Teile und Aspekte des zu äußernden Sachverhalts
eingebracht werden, d.h. es geht um die beteiligten Personen und Objekte, ihre
räumlichen und zeitlichen Beziehungen zu einander sowie ihre räumliche und zeitliche
Einordnung in die Diskurswelt; weiters wird auch die Modalität der Äußerung –
faktisch, möglich oder notwendig – festgelegt.
Die Planungsprozesse auf der Makro- und Mikroebene werden zusammengefaßt als
Konzeptualisierung („conceptualization“). Der Output dieser Ebenen bzw. der
Konzeptualisierung ist die sog. Message – eine begriffliche Struktur54.
Den nächsten Schritt bilden nun die sog. Formulierungsprozesse („formulation“ s.
Fn.53). Durch diese Prozesse wird die konzeptuelle Repräsentation – die „message“ –
in die entsprechenden sprachlichen Formen „übersetzt“. Bei den
Formulierungsprozessen lassen sich zwei Hauptkomponenten unterscheiden: die
Lexikalisierung („lexicalization“) und die syntaktische Planung („syntactic planning“).
Damit werden einerseits diejenigen lexikalischen Einheiten ausgewählt, die den
jeweiligen konzeptuellen Repräsentationen entsprechen, und andererseits die
syntaktische Struktur(en) ausformuliert, um so der Bedeutung der „message“ zu
entsprechen. In weiterer Folge müssen Prozesse angenommen werden, die die
aufgrund der Lexikalisierung und syntaktischen Planung entstandenen syntaktische
Struktur in die entsprechende phonologische Form bringen, und damit die Basis für
die Artikulation schaffen.
Die abschließenden Prozesse bestehen nun in der Umsetzung des durch die
Formulierungsprozesse geschaffenen phonetischen Plans in die entsprechenden
53 Diese Bezeichnung erfolgt in Anlehnung an die antike Rhetorik (vgl. Stutterheim,C. von, 1997. Einige Prinzipien des Textaufbaus: Empirische Untersuchungen zur Produktion mündlicher Texte. Tübingen
56
artikulatorischen Muster und der dadurch möglichen Steuerung der
Artikulationsorgane.
Wenn man von diesen Inhalten der sprachlichen Produktion ausgeht, können die
beteiligten Prozesse so zusammengefasst werden (s. Abb. 2055):
Soweit eine kurze inhaltliche Zusammenfassung des sprachlichen Produktionssystems wie
es entsprechend der sogenannten autonomen Theorie56 angenommen wird. Dieses System
wird allerdings noch etwas komplizierter, wenn man nämlich bedenkt, daß ein Sprecher
sich auch korrigieren kann, wenn er erkennt, daß das, was er gerade sagt oder sagen will,
formal oder inhaltlich als nicht passend angesehen wird. D.h. es muß ein System geben,
das die konkrete Äußerung bzw. auch die noch im Stadium der Planung stehenden
Äußerungsteile überwacht und mit der intendierten Äußerung vergleicht. Ein solches
System wird als Monitor bezeichnet. Um seinen Zweck zu erfüllen muß der Monitor nicht
nur Information über die geplante Äußerung („message“) haben, sondern er muß auch
Zugang zu dem haben, was produziert wurde, dies erfolgt über das
Sprachverständnissystem des Sprechers. Bezüglich des Eingreifens des Monitors wird
angenommen57, daß es zwei Stellen gibt, an denen der Produktionsablauf kontrolliert
wird: Einmal auf der Ebene, auf der die bereits in Silben gegliederte Kette von
phonologischen Segmenten vorhanden ist – d.h. im Bereich der phonologischen
Kodierung und die zweite Stelle ist dann die bereits produzierte, hörbare Äußerung. Somit
läßt sich das Sprachproduktionssystem in seiner funktionalen Gliederung wie folgt
darstellen (s. Abb. 2158):
54 Zu diesen und folgenden den Begriffen und ihrer Verwendung vgl.: Levelt, W.J.M., 1989. Speaking: From Intention to Articulation. Cambridge, MA 55 Dietrich,R., 2002. Psycholinguistik. Stuttgart, Weimar: p. 124 56 Levelt, W.J.M./Roelofs, A./Meyer, A.S., 1999. A theory of lexical access in speech production. Behavioral and Brain Sciences 22: 1-75 57 s. Fn. 53 58 Nach Indefry,P./Levelt,W.J.M., 2000. The neuronal correlates of language production. In: Gazzaniga,M.S. (ed.), The New Cognitive Neurosciences. Cambridge, MA: 845-865
57
4.2 Von der „Message“ zur Äußerung
Im folgenden wollen wir uns genauer mit den Prozessen bei der Sprachproduktion
befassen, wobei wir uns allerdings auf jene Bereiche beschränken werden, die im o.e.
Modell als Formulierungsprozesse bezeichnet werden. Dies erfolgt nicht zuletzt auch
deswegen, weil unsere Kenntnisse über die Planung der Kommunikation und vor allem
über die Konzeptualisierung doch noch recht lückenhaft sind. Dies zeigt sich auch darin,
daß die verschiedenen Hypothesen zu diesen Stadien der Sprachproduktion deutliche
Unterschiede aufweisen.
Bei der Umformung der Message in ein hörbares Signal greift der Sprecher auf sein
lexikalisches und grammatisches Wissen zurück. Aufgrund seines lexikalischen Wissens
kann er mit einem Konzept der Message ein entsprechendes Wort verbinden, das dieses
Konzept ausdrückt. Dieser Prozeß wird als lexikalischer Zugriff (lexical access)
bezeichnet. Man geht davon aus, daß dieser Zugriff zwei Stufen umfaßt, einen
sogenannten Lemmazugriff und einen Lexemzugriff. Mit dem Begriff Lemma ist jene
Repräsentationsebene eines Wortes gemeint, die zwischen seiner semantischen und seiner
phonologischen Repräsentation liegt; d.h. das Wort ist syntaktisch spezifiziert, das
bedeutet, hier sind die Wortklasse, das Genus, und auch die Anforderungen an die
syntaktische Umgebung gespeichert. Das Lexem ist nun die phonologische Wortform, d.h.
es handelt sich um eine Art von Speicherung, bei der die Laute repräsentiert sind. Im
Rahmen der syntaktischen Kodierung greift der Sprecher auf sein syntaktisches Wissen
zurück, um die Wörter und grammatischen Bestandteile des Satzes miteinander zu
verknüpfen und in die entsprechende Abfolge zu bringen. Das phonologische Wissen, das
das Wissen über die lautlichen Eigenschaften der sprachlichen Elemente beinhaltet,
ermöglicht die Erzeugung einer phonetischen Kette, die die Informationen für die
Steuerung der Sprechmotorik enthält. Dieser Prozeß wird als phonologische Kodierung
bezeichnet.
58
Das o.e. autonome Modell ist wohl das am detailliertesten ausgearbeitete und in den
späteren Versionen59 werden die drei Verarbeitungsstufen zwei verschiedenen Systemen
zugeordnet: Das semantisch-syntaktische System besteht aus dem Konzeptualisator und
der grammatischen (eigentlich syntaktischen) Enkodierung und das phonologisch-
phonetische System führt die morphophonologische Enkodierung und die Arbeit des
Artikulators durch (s. Abb.21).
Zu beachten ist bei diesem Modell, daß die postulierten Systeme von einander unabhängig
arbeiten und der Ablauf der Verarbeitung erfolgt von oben nach unten (top – down) – von
der oberen Ebene zur nächsten niedrigeren. Wichtig ist auch, daß die Verarbeitung
inkrementell erfolgt (s.u.), d.h. die Verarbeitung einer Äußerung erfolgt stückweise und
wenn nun ein Stück auf einer Ebene vollständig verarbeitet ist, d.h. es enthält alle
Informationen, die auf der nächsten Ebene für seine Verarbeitung notwendig sind, wird es
an diese Ebene weitergereicht. Somit erstellt der Konzeptualisator die Message stückweise
und gibt sein fertiges Stück an die syntaktische Kodierung weiter und diese gibt ihr
fertiges Stück an die phonologische Kodierung weiter und diese ihr fertiges Stück an die
Artikulation. Schematisch läßt sich dies vereinfacht so darstellen:
Konzeptualisator
Formulator
Artikulator
Zeit
59 vgl. Indefrey,P./Levelt, W.J.M., 2000. s. Fn58
59
Das bedeutet, daß auf den einzelnen Ebenen jeweils bereits am nächsten Stück der
Äußerung gearbeitet wird, während die darunterliegende Ebene noch das sozusagen
„zurückliegende“ Stück bearbeitet.
Es stellt sich nun die Frage, wie die einzelnen Prozesse – der lexikalische Zugriff, die
syntaktische und die phonologische Kodierung – ablaufen und wie groß der Teil der
Äußerung ist, der in einem Schritt verarbeitet wird. Da diese Vorgänge nicht direkt
beobachtbar sind, ist es notwendig, im Output des Produktionsprozesses nach
Anhaltspunkten zu suchen, die Rückschlüsse auf die einzelnen Prozesse erlauben. Dies
erfolgt etwa durch die Untersuchung von Pausen im Sprechvorgang, durch die
Untersuchung der Struktur von Produktionsfehlern – also von Versprechern bzw. auch der
Produktionen von Patienten mit Sprachstörungen – aufgrund von Reaktionszeitmessungen
in entsprechenden Testsituationen, aber auch aufgrund von Untersuchungen von
meßbaren und beobachtbaren Vorgängen im Gehirn (EEG und (f)MRI). Im folgenden
wollen wir uns nun einige Untersuchungen näher ansehen.
Bei den im Sprechen beobachtbaren Verzögerungsphänomenen können wir zwischen
gefüllten Verzögerungen und ungefüllten Pausen unterscheiden. Bei den gefüllten
Verzögerungen kann es sich um gefüllte Pausen (mit „ah“, „hm“ usw.), Wiederholungen,
einem Neubeginn oder auch um Einschübe, wie „also“, „dann“, „ich meine“, „ich glaube“,
usw., handeln. Die ungefüllten Pausen sind leichter zu entdecken und ihre Dauer kann
auch gemessen werden. So hat Goldmann-Eisler (196860) die Verteilung von ungefüllten
Pausen (Länge 200 oder 250 ms) untersucht. Dabei zeigte sich, daß solche Pausen eher
vor unerwarteten (im Kontext weniger vorhersagbaren) Wörtern auftraten Da
„Erwartbarkeit“ verschiedenes beinhalten kann, wie z.B. Worthäufigkeit oder
Bekanntheit, wurde die „Erwartbarkeit“ auch unabhängig gemessen, etwa durch das
60 Goldmann-Eisler, F., 1968. Psycholinguistics: Experiments in spontaneous speech. London
60
Ausfüllen von Lücken mit diesen Wörtern, wobei die Dauer dafür gemessen wurde61. Es
stellte sich ebenfalls heraus, daß die Pausen vor grammatischen Wörtern wie Hilfsverben,
Artikeln, Präpositionen usw. kürzer sind als die Pausen vor Inhaltswörtern. Es wird
angenommen, daß diese Pausen vor weniger erwartbaren Wörtern einem vorübergehenden
Problem beim lexikalischen Zugang entsprechen. Wir kennen zwar die Bedeutung des
Wortes, aber wir können nicht sofort die Lautkette abrufen.
Goldmann-Eisler ging auch davon aus, daß wir während mancher Pausen den Inhalt
dessen planen, was wir gerade sagen wollen. Sie stellte nämlich fest, daß die
Schwierigkeit der Aufgabe die Zahl der Pausen, die ein Sprecher macht beeinflußt (z.B.
die Interpretation eines Cartoons vs. seiner Beschreibung). So führt die schwierigere
Aufgabe zu mehr Pausen im Sprechen.
Kommt es nun in den Pausen zu semantischen oder syntaktischen Planungsvorgängen?
Goldmann-Eisler (1968) meinte, daß die Pausendauer von der syntaktischen Komplexität
der Äußerungen nicht beeinflußt wird und schloß daraus, daß es sich primär um
semantische Planung handelt. Allerdings stellt sich auch hier die Frage danach, was unter
syntaktischer Komplexität zu verstehen ist und wie sie gemessen werden soll. Es ist zur
Zeit nicht ganz auszuschließen, daß die Pausen auf sowohl auf eine semantische Planung
als auch auf eine syntaktische Planung hinwiesen.
Bezüglich der zeitlichen Abfolge der Planung der Sprachproduktion wurde vorgeschlagen,
daß dies in sogenannten kognitiven Zyklen („cognitive cycles“) erfolgt62. Dies zeige sich
darin, daß sich beim Sprechen Phasen mit starken Verzögerungen mit Phasen flüssigen
Sprechens abwechseln. Dabei lassen sich in den Phasen mit den Verzögerungen auch
mehr gefüllte Pausen und mehr Neuanfänge beobachten als in den Phasen flüssigen
61 Butterworth, B., 1980. Evidence from pauses in speech. In: Butterworth,B. (ed.) Language Production Vol. I: Speech and Talk. New York: 155-176 62 Henderson, A./Goldman-Eisler, F./Skarbek, A., 1966. Sequential temporal patterns in speech. Language and Speech 8: 236-242
61
Sprechens. Daraus könnte man schließen, daß wir in den flüssigen Phasen das
produzieren, was wir in den vorausgehenden verzögerten Phasen geplant haben.
Es hat sich auch gezeigt63, daß die das Sprechen begleitende Gestik ebenfalls von der
jeweiligen Phase des Sprechens abhängig ist. Die Sprecher neigen dazu, in den
Verzögerungsphasen Gesten zu verwenden, die das Gesagte unterstreichen oder betonen
sollen (also: Gesten ähnlich dem Dirigieren mit einem Taktstock). In den flüssigen Phasen
hingegen lassen sich eher „ikonische“ Gesten feststellen, also Gesten, die den mit den
ausgedrückten Objekten oder Handlungen in Beziehung stehen (z.B. „anrufen“ oder
„telefonieren“ wird von einer entsprechenden Geste begleitet).
Diese Beobachtungen, daß mehrere Phänomene gemeinsam in diesen
Verzögerungsphasen auftreten, scheinen auf eine gewisse psychologische Realität dieser
Planungszyklen hinzuweisen. Allerdings sollte nicht außer acht gelassen werden, daß mit
diesen Analysen der Verzögerungsphänomene auch eine Anzahl von Problemen
einhergehen. Zum einen können die Pausen durchaus mehrere Funktionen erfüllen. So ist
es vorstellbar, daß Sprecher die Pausen (un-)bewußt setzen, um so dem Hörer das
Verstehen zu erleichtern, und zwar etwa in Bezug auf die Segmentierung der sprachlichen
Ketten. Wenn wir daran denken, daß der Sprecher in einem Diskurs auch den jeweiligen
Stand des Hörers in Hinblick auf die Vermittlung des Inhalts „im Auge hat“, so könnten
Pausen auch die Anforderungen des Diskursinhalts widerspiegeln. Weiters besteht auch
die Möglichkeit, daß den verschiedene Pausenlängen unterschiedliche Ursachen zugrunde
liegen. So nahm Goldmann-Eisler an, daß sogenannte Mikropausen – Pausen kürzer als
250 ms – eher artikulatorische Schwierigkeiten als Planungsprobleme widerspiegeln.
(Allerdings wird diese Ansicht auch in Frage gestellt64.) Außerdem hat sich herausgestellt,
daß es zwischen den verschiedenen Verzögerungsphänomenen zu einem Austausch
63 Beattie, G.W., 1983. Talk: An analysis of speech and non-verbal behaviour in conversation. Milton Keynes UK: Open Univ. Press
62
kommen kann. So hat sich gezeigt65, daß in Fällen, in denen die Sprecher veranlaßt
wurden, keine langen (mehr als 600ms) Pausen zu machen, die Zahl ihrer Pausen zwar
zurückging, dafür aber die Zahl der Wiederholungen anstieg.
Dieser „Abtausch“ von spezifischen Verzögerungsphänomenen scheint doch darauf
hinzuweisen, daß zu diesen Zeitpunkten Planungsaktivitäten vorliegen, doch worum es
sich im Konkreten handelt, ist keineswegs klar. War man ursprünglich davon
ausgegangen, daß es sich dabei um semantische Planung handelt, so ist dies keineswegs so
eindeutig festzulegen. Es könnte sein, daß es zu Konflikten zwischen dem Planen von
Propositionen und dem semantischen und syntaktischen Planen von Teilen der Äußerung
kommt (vgl. Levelt, 198952). D.h. wenn der Sprecher zuviel Zeit für die propositionale
Planung benötigt, bleibt zu wenig Zeit (und Speicher ?) für die weitere Planung, was zu
einer Zunahme von Pausen, Abnahme der Sprechgeschwindigkeit und Wiederholung von
bereits geäußerten Phrasen führt.
Der lexikalische Zugriff ist jene Phase in der Produktion von gesprochener Sprache, in der
wir die semantischen Repräsentationen (die Bedeutungen) der Inhaltswörter in ihre
phonologischen Repräsentationen (die Lautketten) überführen. Somit stellt sich die Frage,
wie erfolgt diese „Übersetzung“? Eingangs wurde bereits darauf hingewiesen, daß
angenommen wird, daß der lexikalische Zugriff in zwei Stufen erfolgt. Wenn wir ein Wort
produzieren, dann gehen wir von der semantischen Ebene zunächst zu einer
Zwischenebene, auf der die einzelnen Wörter in Form von Lemmata repräsentiert sind.
Wie bereits o.e. sind die Lemmata syntaktisch spezifiziert, d.h. die grammatikalischen
Eigenschaften (Kategorie, Genus usw.) eines jeden Wortes sind auf dieser Ebene
gespeichert. Die Wahl des Lemmas wird als „lexical selection“ bezeichnet (s. Abb. 20 u.
21).
64 Hieke, A.E./Kowal, S.H./O’Connell, D.C., 1983. The problem with “articulatory” pauses. Language and Speech 26: 203-214
63
Im nächsten Schritt – der phonologischen Enkodierung – werden die phonologischen
Formen der Wörter abgerufen. Wie bereits erwähnt wird dieses erste Stadium als
Lemmazugriff und das zweite als Lexemzugriff bezeichnet. Für diese Annahme eines
solchen zweistufigen Modells finden wir einiges an Unterstützung.
So lassen sich etwa im Bereich der Untersuchungen von Versprechern zwei Arten
beobachten, bei denen ganze Wörter vertauscht werden66: semantische Ersetzungen wie
z.B. „wife“ statt „husband“ bzw. sogenannte „Malapropismen“67 wie z.B. „equivocal“
statt „equivalent“ oder „hysterical“ statt „historical“.
Man kann dies nun so interpretieren, daß diese Arten von Wortsubstitutionen darauf
hinweisen, daß sowohl bei der Wortproduktion als auch beim Wortverständnis dasselbe
Lexikon verwendet wird – aber in unterschiedlicher Richtung. Für das Erkennen der
Wörter sind die lexikalischen Elemente phonologisch angeordnet, d.h. ähnlich klingende
Wörter sind näher beisammen (wie „hysterical“ und „historical“). Der Zugang zum
Lexikon erfolgt nun, indem ein Netzwerk durchlaufen wird. Die semantischen Fehler
passieren nun, wenn ein „falscher“ Weg eingeschlagen wird – eine falsche Entscheidung
getroffen wird („wife“ statt „husband“) – und zum phonologischen Fehler kommt es,
wenn schließlich die phonologische Form gewählt wird. In Butterworth (198268) finden
wir eine Variante dieses Modells, wobei in diesem Modell zuerst ein Eintrag im
semantischen Lexikon gewählt wird, der wiederum einen „Zeiger“ besitzt, der auf den
entsprechenden Eintrag in einem separaten phonologischen Lexikon verweist.
Entsprechend solchen Zwei-Stufen Modellen erfolgen semantische bzw. phonologische
Substitutionen auf unterschiedlichen Ebenen.
65 Beattie, G.W./Bradbury, R.J., 1979. An experimental investigation of the modifiability of the temporal structure of spontaneous speech. J. of Psycholinguistic Research 8: 225-247 66 Fay, D./Cutler, A., 1977. Malapropisms and the structure of the mental lexicon. Linguistic Inquiry 8: 505-520 67 Diese Bezeichnung leitet sich von einer Figur aus dem Stück „The Rivals“ von Richard Brinsley Sheridan her, nämlich Mrs. Malaprop, die eine Vorliebe für schwierige Fremdwörter hat, diese aber falsch verwendet, z.B. „epitaphs“ statt „epithets“ oder „reprehend“ statt „apprehend“. 68 Butterworth, B., 1982. Speech errors: Old data in search of new theories. In: Cutler, A. (ed.), Slips of the tongue and language production. Amsterdam: 73-108
64
Abgesehen von der Untersuchung der Struktur von Versprechern gibt es auch
experimentelle Untersuchungen, die auf eine zweistufigen Lexikonzugriff hinweisen.
Viele dieser Experimente wurden im Rahmen des „Nimwegener Modells“ der
Sprachproduktion (s. Levelt 198952) durchgeführt. Bei den meisten Untersuchungen
handelt es sich um Reaktionszeitstudien und Objektbenennungsaufgaben, die die
Annahme einer ersten Phase der frühen semantischen Aktivierung bei der lexikalischen
Wahl („lexical selection“) und einer späteren Phase der phonologischen Aktivierung im
Rahmen der phonologischen Enkodierung unterstützen. In Bild-Wort Interferenzstudien69
wurde festgestellt, daß im frühen Stadium Wörter ihre semantischen Nachbarn
beeinflussen, dagegen in einem späteren Stadium ihre phonologischen Nachbarn. D.h. es
wurde im frühen Stadium ein semantischer Primingeffekt beobachtet, später dagegen ein
phonologischer. Diese Ergebnisse weisen darauf hin, daß es ein frühes Stadium gibt, in
dem semantische Kandidaten aktiv sind – das Lemmastadium – und ein späteres, in dem
phonologische Einheiten aktiv sind.
(Kurz zur Beschreibung solcher Tests: Den Ausgangspunkt bildet die Überlegung, daß
wenn man ein Wort wie „Schaf“ sagt, dies das Erkennen eines anderen Wortes wie z.B.
„Ziege“ erleichtert (semantischer Primingeffekt), wenn nämlich das andere Wort in einer
semantischen Beziehung zum zuerst genannten steht. Es stellt sich die Frage, ob nun
„Ziege“ seinerseits das Erkennen von phonologischen Nachbarn, wie z.B. „Wiege“
erleichtert. Die Vpn. hatten nun folgende Aufgabe: Es wurden ihnen einfache Objektbilder
(z.B. Schaf) gezeigt und sie mußten diese Objekte so schnell wie möglich benennen. Das
dauert üblicherweise ca. 500 – 800 ms. Beim Betrachten eines Bildes oder Objekts werden
die ersten 150 ms für die visuelle Verarbeitung und die Aktivierung des entsprechenden
Konzepts verwendet. Danach dauert es ca. 125 ms, um das entsprechende Lemma zu
69 Levelt, W.J.M./Schriefers, H./Vorberg, D./Meyer,A.S./Pechmann, T./Havinga, J., 1991. The time course of lexical access in speech production: A study of picture naming. Psychological review 98: 122-142; Schriefers,
65
aktivieren. Die phonologische Enkodierung beginnt nach ca. 275 ms und die tatsächliche
Äußerung beginnt nach ca. 600 ms. Im Zeitraum zwischen der Bildpräsentation und dem
Benennen wurde den Vpn. über Kopfhörer ein Wort wie z.B. „Wiege“ eingespielt. Die
Vpn. mußten nun einen Knopf drücken, sobald sie entschieden hatten, ob das gehörte
Wort ein „echtes“ Wort war – also eine auditive lexikalische Entscheidungsaufgabe. Diese
Studien wiesen die o.e. Ergebnisse auf.)
Eine weitere Untersuchung, die das Zwei-Stufen Modell stützt, bediente sich elektro-
physiologischer Daten70. Wie bekannt benötigen kognitive Prozesse nicht nur Zeit,
sondern es lassen sich dabei auch Schwankungen von elektrischer Energie im Gehirn
beobachten. Diese Veränderungen der elektrischen Energie können mit Hilfe von
Elektroden auf der Kopfhaut gemessen und aufgezeichnet werden. Daraus ergibt sich das
Elektroenzephalogramm – EEG. Die verschiedenen kognitiven Aktivitäten lösen auch
entsprechende unterschiedliche Muster der Energieschwankungen aus. Diese
Schwankungsmuster werden als Potentiale bezeichnet. Dies gilt natürlich auch für
sprachliche Aufgaben, wo es zu unterschiedlichen Potentialen kommt, wenn es sich um
die Verarbeitung von z.B. lautlicher oder semantischer Phänomene handelt. Für das im
folgenden dargestellte Experiment ist aber auch wichtig, daß bei der Vorbereitung von
motorischen Reaktionen ebenfalls bestimmte Muster beobachtbar sind.
Bevor wir jedoch darauf näher eingehen, noch ein paar Worte zu den mit sprachlichen
Aktivitäten in Verbindung gebrachten Potentialen71. Grundsätzlich ist festzuhalten, daß
sich die Muster der zu beobachtenden Ströme in ihrer Polarität (plus – minus) und in der
Zeit, in der sie nach dem Auftreten des Ereignisses (Latenz) die maximale Amplitude
H./Meyer, A.S./Levelt, W.J.M., 1990. Exploring the time course of lexical access in language production: Picture-word interference studies. J. of Memory and Language 29: 86-102 70 Turennout, M.I. van/Hagaart, P./Brown, C.M., 1997. Electrophysiological evidence on the time course of semantic, and phonological processes in speech production. J. of Experimental Psychology: Learning, Memory, and Cognition 23: 787-806; dieselben 1998. Brain activity during speaking: From syntax to phonology in 40 milliseconds. Science 280: 572-574 71 S. dazu: Kutas, M./Peten, C.K. van, 1994. Psycholinguistics electrified: event-related brain potential investigations. In: Gernsabcher, M.A. (ed.) Handbook of Psycholinguistics. San Diego etc.: 83-144
66
erreichen, unterscheiden. Diese mit bestimmten Ereignissen in Verbindung gebrachten
Potentiale werden als ERP („event related potentials“) bezeichnet. Aufgrund von
zahlreichen Untersuchungen wurde im Bereich der Forschungen zum Sprachverstehen ein
negatives Potential festgestellt, das über die gesamte Kopfhaut meßbar ist, aber im
parietalen, posterior-temporalen und occpitalen Bereich stärker ausgeprägt ist als im
frontalen. Dieses Potential erreicht seine stärkste Ausprägung im Schnitt 400 ms nach dem
Beginn des Ereignisses, daher die Bezeichnung N 400. Ausgelöst wird dieses Potential
durch eine Verletzung von semantischen Übereinstimmungen („The pizza was too hot to
cry. vs. eat“ s. Abb. 22). Soweit ganz kurz zu einem mit sprachlicher Verarbeitung in
Zusammenhang stehenden Potential. (Mehr dazu s. VO Einf. in die Neuro-
/Patholinguistik)
Nun zurück zum eigentlichen Experiment. Für diese Untersuchung wurde ein nicht auf die
Sprache, sondern auf die Motorik bezogenes Potential genutzt. Dieses negative Potential,
das links und rechts zentral gemessen werden kann, tritt ca. 200 ms vor einer
Muskelaktivität der Finger der rechten oder linken Hand auf. Dieses Potential endet
sobald die Bewegungen der Finger eingesetzt haben. Das Potential ist kontralateral etwas
stärker ausgeprägt als ipsilateral. Wie kann man nun dieses Potential für die Untersuchung
von Sprachproduktion nutzen? Man macht sich dabei eine spezifische Eigenschaft des
lateralen Potentials zunutze: Wenn sich jemand darauf vorbereitet auf ein spezifisches
Ereignis hin einen Finger zu bewegen – z.B. einen Knopf zu drücken – dann baut sich das
Potential nach dem Eintreten des Ereignisses und vor der eigentlichen Bewegung des
Fingers auf. Während dieser Zeit kann bis zu einem bestimmten Zeitpunkt hin, die
Ausführung der eigentlichen Fingerbewegung noch abgebrochen werden. D.h. es entsteht
eine Bereitschaft eine Bewegung auszuführen, was sich in einem sogenannten lateralen
Bereitschaftspotential (LRP – lateralized readyness potential) widerspiegelt. Dieses LRP
ist auch dann vorhanden, wenn die Bewegung doch nicht durchgeführt wird. (Die
67
Berechnung dieses Potentials ist allerdings sehr kompliziert, weil ja alle anderen
Ereignisse im Gehirn, die mit der Bewegungsvorbereitung nichts zu tun haben,
herausgefiltert werden müssen. Außerdem sind individuelle Schwankungen zu
berücksichtigen.)
Im Experiment musste nun ein bildlich dargestelltes farbiges Objekt benannt werden, und
zwar mit einer einfachen Adj-N-Phrase. Diese Aufgabe war mit zwei weiteren Aufgaben
verbunden: einer Klassifikationsaufgabe, die sich entweder auf eine grammatikalische
oder phonologische Eigenschaft des Nomens bezog und mit einer sogenannten go/no-go-
Entscheidung, die auch von einer lexikalischen Eigenschaft des Zielnomens abhängig war.
Die Vpn. hatten nun die Aufgabe die Objekte in Holländisch zu beschreiben, wobei
manchmal nach 150 ms ein Rahmen um das Objekt erschien, was bedeutete, daß vor der
Bezeichnung noch eine Klassifikationsaufgabe durchzuführen war. Diese sah so aus:
Wenn es sich beim Zielwort um ein Wort mit allgemeinen Genus („common gender“)
handelte, was im Holländischen durch den Artikel „de“ ausgedrückt wird, sollte mit der
linken Hand ein Knopf gedrückt werden; handelte es sich dagegen um ein Wort mit
neutralem Genus (erhält den Artikel „het“), dann sollte mit der rechten Hand ein anderer
Knopf gedrückt werden. Allerdings war die Ausführung der Bewegung an eine weitere
Bedingung geknüpft: In diesem Fall handelte es sich um eine phonologische, denn wenn
es sich um ein Wort handelte, das mit [b] begann, sollte die Bewegung ausgeführt werden
(= go Bedingung); begann das Wort aber mit [s], sollte die Bewegung nicht ausgeführt
werden (= no-go Bedingung). Danach verschwand das Bild und es sollte die Benennung
erfolgen. Gemessen wurde nun das laterale Bereitschaftspotential – wenn eines auftrat.
Unter einer zweiten Bedingung wurden nun die beiden Entscheidungsaufgaben vertauscht.
D.h. die [b]/[s]-Entscheidung bestimmte die Hand – links oder rechts – und das Genus
(„de“ oder „het“) die go/no-go-Entscheidung. Wieder wurde das LRP gemessen.
68
Die Ergebnisse zeigten, daß unter der ersten Bedingung (Genus = Hand, Laut = go/no-go)
immer ein LRP auftrat. Dagegen traten unter der zweiten Bedingung (Laut = Hand, Genus
= go/no-go) in den no-go-Situationen kein LRP auf, wohl aber in den go-Situationen.
Diese Verteilung der LRPs wird nun so interpretiert, daß, wenn zuerst das Genus zu
beurteilen war, sich ein LRP aufbaute, auch wenn die Bewegung nicht durchgeführt
wurde. Mußte aber zuerst die Lautung beurteilt werden, dann war offensichtlich die no-go
Entscheidung bereits getroffen, bevor noch die Entscheidung hinsichtlich der linken oder
rechten Hand getroffen werden mußte. Dies würde bedeuten, daß die Entscheidung über
das Genus bereits vorher erfolgt ist. Diese Ergebnisse würden also auf eine zeitliche
Reihenfolge im Zugriff auf das Lemma und Lexem hinweisen. D.h. es wird zuerst auf die
grammatikalischen Eigenschaften zugegriffen und danach erst auf die phonologischen –
allerdings ist die zeitliche Differenz zwischen den beiden Zugriffen recht kurz, nämlich
ca. 40 ms.
Obwohl dieses Zwei-Stufen-Modell mehrheitlich akzeptiert wird, gibt es auch kritische
Stellungnahmen72 dazu. So könnte man aus den Ergebnissen der Untersuchungen, die das
Zwei-Stufen-Modell stützen, auch herauslesen, daß eigentlich nur eine Unterscheidung
zwischen einer semantischen und einer phonologischen Ebene ausreicht und daß die
Annahme einer Lemma-Ebene nicht notwendig ist. Dazu ist anzumerken, daß
ursprünglich das Lemma definiert wurde als aus der Bedeutung und den
grammatikalischen Merkmalen bestehend73. Als Unterstützung des Modells des
zweistufigen Zugriffs wurde auch angeführt, daß im TOT-Stadium das Genus des
gesuchten Wortes abgerufen werden kann. Allerdings wird auch dieses Ergebnis in letzter
Zeit stärker diskutiert. Denn es sollte nicht möglich sein, phonologische Information
72 Caramazza, A., 1997. How many levels of processing are there in lexical access? Cognitive Neuropsychology 14: 177-208; Caramazza, A./Miozzo, M., 1997. The relation between syntactic and phonological knowledge in lexical access: Evidence from the “tip-of-the-tongue” phenomenon. Cognition 64: 309-343; Caramazza, A./Miozzo, M., 1998. More is not always better: A response to Roelofs, Meyer, and Levelt. Cognition 69: 231-
69
abzurufen, ohne vorher grammatikalische Information, wie eben Genus, abgerufen zu
haben. Untersuchungen zum TOT-Phänomen (Caramazza/Miozzo, 1997;
Miozzo/Caramazza, 1997, s. Fn.72) scheinen aber darauf hinzuweisen, daß die
phonologische und die grammatikalische Information unabhängig sind, denn Sprecher des
Italienischen können manchmal Teile der phonologischen Information abrufen, auch wenn
sie nicht in der Lage sind, das Genus des gesuchten Wortes abzurufen und umgekehrt. In
diesem Sinne sind die Lemmata für Caramazza (1997 s. Fn.72) nur eine unnötige
Verkomplizierung und er läßt sie in seinem Modell weg (s. Abb. 23). Er schlägt vor, daß
der lexikalische Zugang bei Sprachproduktion die Interaktion eines semantischen
Netzwerks, eines syntaktischen Netzwerks und der phonologischen Formen benötigt. Die
semantischen Repräsentationen aktivieren sowohl die entsprechenden Knoten im
syntaktischen Netzwerk als auch im phonologischen Netzwerk.
Die wichtigsten Annahmen dieses Modells sind:
aufgrund der konzeptuell-semantischen Repräsentationen werden gleichzeitig die
Wortformen (Lexeme) von semantisch ähnlichen Wörtern aktiviert;
die konzeptuell-semantischen Repräsentationen aktivieren zugleich mit den
Wortformen auch jene syntaktischen Merkmale, die eine semantische Basis
besitzen (z.B. Tempus des Verbs);
die Lexeme aktivieren auch die assoziierten lexikalisch-syntaktischen Merkmale
(z.B. Genus eines Nomens);
die Lexeme aktivieren auch die assoziierten phonologischen Segmente und andere
phonologische Information wie die Silbenstruktur des Wortes;
die Aktivierung erfolgt unidirektional kaskadierend.
241; Miozzo, M./Caramazza, A., 1997. Retrieval of lexical-syntactic features in the tip-of-the-tongue states. J. of Experimental Psychology: Learning, Memory, and Cognition 23: 1410-1423 73 vgl. dazu: Aitchison, J., 1994. Words in the mind: An introduction to the mental lexicon. Oxford
70
Kaskadierend bedeutet, daß – im Gegensatz zu den seriellen Modellen, wo die phonologische
Kodierung erst nach der Aktivierung des Lemmas erfolgt – bereits bei der Aktivierung eines
Lemmas/Lexems eine gewisse Aktivierung der dazu gehörenden Wortform erfolgt; d.h., daß
mehrere Wortformen aktiv sind.
Caramazza et al. weisen darauf hin, daß in diesem Modell die lexikalisch-syntaktischen
Eigenschaften und die phonologischen Segmente eines Wortes unabhängig von einander
abgerufen werden können.
Wenn auch die Mehrzahl der Forscher dem Zwei-Stufen-Modell den Vorzug gibt, so ist
dennoch nicht auszuschließen, daß diesem einstufigen Modell eine gewisse Plausibilität
zukommt. Allerdings ist derzeit wohl noch nicht möglich, weitergehende Aussagen zu
diesem Modell zu machen.
Phonologische Kodierung
Die phonologische Kodierung soll nun die entsprechende Lautkette erzeugen. Den Input
für die phonologische Kodierung bildet das Ergebnis der syntaktischen Kodierung und des
lexikalischen Zugriffs. Im oben dargestellten Modell (s. Fn. 55) wird diese Struktur als
Oberflächenstruktur bezeichnet, die die Lemmata und die Spezifizierung ihrer Funktionen
und die syntaktische Gliederung enthält. Das im Zusammenhang mit diesem Modell
vorgeschlagene Modell der phonologischen Kodierung ist das sogenannte WEAVER++
Modell74. Dabei wird davon ausgegangen, daß – wie bereits oben erwähnt – Konzepte die
entsprechenden Lemmata aktivieren, indem die Aktivierung sich im Netzwerk ausbreitet.
Als Beispiel möge das von Levelt et al. gewählte dienen75 (s. Abb. 24). In diesem Fall
breitet sich die Aktivierung vom aktiven lexikalischen Konzept zum Lemmaknoten aus.
Durch die Wahl des Lemmas werden auch seine syntaktischen Eigenschaften greifbar,
74 s. Levelt at al., 1999: Fn. 53 (WEAVER = Word-form Encoding by Activaton and VERification; Computermodell ) 75 Levelt et al., 1999 : 4
71
d.h. im Fall von „escort“, daß es sich um transitives Verb mit zwei Argumentpositionen
handelt. Nun besitzen viele Lemmata sogenannte diakritische Parameter, die
entsprechend gesetzt werden müssen (s. bei „escort“: Tempus, Person, Modus, Aspekt –
Verblemma im Englischen). Aufgrund der Werte der diakritischen Merkmale kann es zu
verschiedenen phonologischen Realisierungen kommen wie „escorts“, „escorted“ usw.
Ein Teil der Werte dieser diakritischen Merkmale ergibt sich aus der konzeptuellen
Repräsentation und ein anderer Teil ergibt sich während der grammatikalischen
Kodierung. So leitet sich der Wert für den Numerus beim Verb aus der Übereinstimmung
mit dem Numerus des Subjekts ab.
Nach der Wahl des Lemmas kommt es zum Zugriff auf das entsprechende Lexem. Dies ist
nun der Bereich des phonologisch-phonetischen Systems. Dabei geht es um die
Vorbereitung der entsprechenden artikulatorischen Gesten des gewählten Wortes und
zwar in seinem prosodischen Kontext. Der erste Schritt ist dabei das phonologische
Muster des jeweiligen Wortes aus dem mentalen Lexikon abzurufen. Dieser Zugriff auf
die Wortform beinhaltet die Aktivierung von drei Arten von Information: die
morphologische Struktur des Wortes, seine metrische Form und seine segmentale
Struktur. (Im Beispiel: Das Lemma ist „escort“ und diakritisch markiert bezüglich
Progressive, damit wird im ersten Schritt auf die beiden Morpheme <escort> und <ing>
zugegriffen. Danach werden die segmentalen und metrischen Eigenschaften dieser
Morpheme „ausbuchstabiert“ („spelled out“). Bezüglich „escort“ ergibt die metrische
Information, daß es zweisilbig und endbetont ist, und daß es ein phonologisches Wort76
sein kann. Für <ing> ergibt die metrische Information, daß es sich um einsilbiges,
unbetontes Morphem handelt, das kein unabhängiges phonologisches Wort sein kann, d.h.
es muß mit einem anderen verbunden werden – in diesem Fall mit „escort“.) Die
76 Ein phonologisches oder prosodisches Wort ist der Bereich für die Silbifizierung. Es kann kleiner als ein lexikalisches Wort sein, wie es bei den meisten Komposita ist, oder auch größer, wie im Falle der Klitisierung
72
segmentale Ausbuchstabierung ergibt die entsprechende phonologische Struktur (s. Abb.
24). Auf dieser Ebene gibt es keine Silben, obwohl die Silbenstruktur „e-scort“ ist, ist
diese nicht im mentalen Lexikon gespeichert, denn im vorliegenden Modell wird die
Silbifizierung ( a. Syllabifizierung = Gliederung in Silben) als ein später Prozeß
angesehen. Dies wird damit erklärt, daß die Silbifizierung oft von der phonologischen
Umgebung eines Wortes abhängig ist. So kann die Silbifizierung über Wortgrenzen
hinausgehen, z.B. in: „He’ll escort us.“ > „escor-tus“. Einen ganz wichtigen Bereich
dieses Modells bildet die Darstellung des Prozesses der Silbifizierung. Dabei wird
angenommen, daß die Segmente eines Morphems oder Phoneme simultan verfügbar
werden, aber mit „etikettierten“ Hinweisen bezüglich ihrer Abfolge. Das metrische Muster
des Wortes kann entweder so bleiben wie es ist, oder entsprechend dem Kontext verändert
werden. Wird nun z.B. „escorting“ erzeugt, dann ergeben die „ausbuchstabierten“
metrischen Muster für <escort> ’ und <ing> und diese verbinden sich zu einem
dreisilbigen Muster. Die ausbuchstabierten Muster werden nun nacheinander in die
metrische Schablone eingefügt und bilden die entsprechenden phonologischen Silben „e-
scor-ting“. Dieser Prozeß folgt universellen Regeln der Silbifizierung und auch
sprachspezifischen Regeln. Zur phonetischen Kodierung und zur Artikulation werden in
diesem Modell nur einige Teilvorschläge gemacht, wobei im Rahmen der phonetischen
Kodierung das Vorhandensein eines Sprechsilbenlexikons („syllabary“) vorgeschlagen
wird, in dem die häufig verwendeten Silben der jeweiligen Sprache gespeichert sind. Die
dort gespeicherten Silben sind höchst automatisierte gestische Muster, die daher nicht
immer wieder neu erzeugt werden müssen.
Nach erfolgter Silbifizierung – einschließlich der Aktivierung des Sprechsilbenlexikons –
erfolgt die motorische Kodierung und schließlich die entsprechende Programmierung der
Artikulationsmotorik.
(z.B. Peter gave it, die Silbifizierung ga-vit erfolgt über gave it und nicht über gave und it.) Levelt et al. 1999,
73
Selbstkorrektur
Was – wie bereits einleitend erwähnt – die Modellierung der Sprachproduktion noch
komplizierter macht ist die Möglichkeit der Selbstkontrolle und der Selbstkorrektur („self-
monitoring“ und „self-repair“). Sicher werden von den Sprechern nicht immer alle ihre
„Fehler“ (Versprecher, falsche Lexeme z.B. „rechts“ statt „links“ etc., syntaktische
Probleme usw.) erkannt und auch korrigiert, doch wichtig ist, daß die Selbstkorrektur
passieren kann und auch immer wieder passiert.
Für die Erklärung der Selbstkorrekturen bestehen zwei Modelle: die Editortheorie77 und
ein konnektionistisches Modell.
Im Editormodell wird von einem eigenen, externen System ausgegangen, das vom
Produktionssystem verschieden ist. Es analysiert laufend die Ergebnisse des
Produktionsprozesses und vergleicht diese Ergebnisse mit dem Input für die Produktion.
Bei Abweichungen kann nun die Produktion gestoppt werden und der Fehler korrigiert
werden. Wie o. e. (s. Abb. 21) nimmt Levelt an, daß die Produktion nur an zwei Stellen
kontrolliert werden kann: auf der Ebene der bereits in Silben gegliederten phonologischen
Kette und bei der hörbaren Rede. Die Analyse des Gesprochenen erfolgt durch das
Sprachverstehenssystem, also dem System, das Hörer zum Verstehen des Sprechers
verwendet. Wiederum wird das Produzierte mit dem Geplanten verglichen und bei
entsprechenden Abweichungen wird der Redefluß eventuell unterbrochen und eine
Korrektur durchgeführt.
Beim konnektionistischen Modell der Sprachverarbeitung78 wird davon ausgegangen, daß
das Produktionssystem ein aus verschiedenen Ebenen bestehendes mehrdimensionales
Netz ist. Eine Produktion erfolgt nun durch die fortschreitenden Aktivierung von Knoten
p.37 77 Levelt, 1989. s. Fn. 52
74
auf den verschiedenen Ebenen, wobei die Auslöser für die Produktion auf den höchsten
Ebenen zu finden sind. Dieser Aktivierungsfluß zieht sich als von den höchsten Knoten
bis hin zu den Knoten auf der präartikulatorischen Ebene. In diesem Modell wird die
Selbstkorrektur so erklärt, daß es eben nicht nur zu „top-down“ Aktivierungen kommt,
sondern daß – nach sehr kurzen Verzögerungen – von jedem nach unten feuernden Knoten
auch ein „Feedback“, d.h. eine Aktivierung, zurück nach oben – „bottom-up“ – erfolgt.
Somit wird die Produktion eines Fehlers auf einer höheren Ebene erkannt, weil eine
Diskrepanz zwischen dem Sollwert und dem Istwert besteht. Damit kann es zu einer
Unterbrechung und zu einer Korrektur kommen. In diesem Modell gibt es kein externes
Kontrollsystem, sondern die Kontrolle findet intern statt.
78 Berg, T. 1988. Die Abbildung des Sprachproduktionsprozesses in einem Aktivationsflußmodell: Untersuchungen an deutschen und englischen Versprechern. Tübingen
75
5 Sprachverständnis
So wie im Bereich der Sprachproduktion wollen wir uns hier auf das Verstehen von
gesprochener Sprache beschränken.
Der gesamte Prozeß des Verstehens von Sprache kann in verschiedene Teilaspekte
gegliedert werden:
Lautperzeption und Worterkennung
Satzverarbeitung
Semantische Verarbeitung.
Im Bereich der Lautperzeption und der Worterkennung geht es darum, wie können wir aus
einem Schallereignis die Sprachlaute herausfiltern und wie können wir erkennen, wo ein Wort
beginnt bzw. endet. Die Satzverarbeitung ist jener Teil des Sprachverstehens, in dem die
Analyse der syntaktischen Strukturen (Parsing) erfolgt. Wenn nun die Wörter erkannt sind
und auch die syntaktische Struktur des Satzes analysiert ist, erfolgt die semantische
Verarbeitung – das eigentliche Verstehen der Äußerung. Dabei wird der Inhalt der Äußerung,
der aus den vorausgegangenen Prozessen „erarbeitet“ wurde, in das semantisch-kognitive
System integriert.
5.1 Lautperzeption und Worterkennung
Im allgemeinen sind wir sehr gut und auch sehr schnell beim Erkennen von gesprochener
Sprache. Außerdem erfolgt dieser Prozeß automatisch, denn wie jeder selbst feststellen kann,
ist es im allgemeinen nicht möglich, sich dem Hören von Sprache zu entziehen. Daß die
Lautperzeption sehr schnell ist, zeigt sich darin, daß bei der Vorgabe der folgenden Reihe, ein
Summton, ein Zischen, ein Ton und ein Vokal, die Versuchspersonen die Reihenfolge nur
dann erkennen konnten, wenn die Geschwindigkeit der Präsentation langsamer als 1,5
76
Laute/sec war79. Im Bereich der gesprochenen Sprache können wir aber – je nach
Sprechgeschwindigkeit – 20 Phoneme oder mehr pro Sekunde verstehen. So ist es uns auch
möglich gesprochene Wörter im Kontext bereits ca. 200ms nach ihrem Beginn zu
identifizieren80. Die Perzeption der Sprachlaute und auch die Identifikation von Wörtern (im
Kontext) erfolgt also sehr rasch und das Erkennen von Sprachlauten scheint gegenüber nicht-
sprachlichen Geräuschen deutlich im Vorteil zu sein. Es stellt sich die Frage, wie kommt es
dazu?
Um überhaupt einmal zur Perzeption von Lauten zu kommen, muß erkannt werden, welche
Schallereignisse überhaupt sprachlichen Einheiten entsprechen; d.h. es geht um die
Segmentierung des Schallkontinuums. Aus dem segmentierten Schallereignis muß ableitbar
sein, um welche lautliche Einheit es sich dabei handelt – es erfolgt eine Kategorisierung.
Eine erste Kategorisierung erfolgt im Cortischen Organ, das das ankommende Schallsignal in
die darin enthaltenen Schwingungen zerlegt und auch für jede einzelne Schwingung feststellt,
wie viel Druck sie aufweist. Das Ergebnis ist ein Frequenzspektrum der ursprünglich
vorhandenen vermengten Schwingungen. Dies lässt sich nun graphisch wiedergeben und zwar
in einem sogenannten Spektrogramm (s. Abb. 26). Nun wissen wir aus der akustischen
Phonetik, die sich mit der Analyse der lautlichen Schallereignisse befasst, daß jeder
Sprachlaut ein individuelles Spektrogramm aufweist – somit bräuchte eigentlich nur jedem
einzelnen Spektrogramm der entsprechende Laut zugewiesen zu werden.
Dies klingt jetzt zwar sehr einfach, ist es aber nicht. Denn die akustischen Eigenschaften der
Laute sind keineswegs fixiert, sondern sie variieren mit dem Kontext, indem sie auftreten und
auch mit den Eigenschaften der Sprecher (z.B. die Stimmlage, die Klangfarbe der Stimme
etc.), aber auch mit den akustischen Eigenschaften der jeweiligen Sprechsituation.
79 Warren, R.M./Obusek, C.J./Farmer, R.M./Warren, R.P., 1969. Auditory sequence: Confusion of patterns other than speech or music. Science 164: 586-587 80 Marslen-Wilson, W.D., 1984. Spoken word recognition: A tutorial review. In: Bouma, H./Bouwhis, D.G. (eds.), Attention and performance X: Control of language processes. Hove, UK: 125-150
77
So weisen Miller und Jusczyk (198981) darauf hin, daß diese komplexe Beziehung zwischen
dem jeweiligen akustischen Signal und dem entsprechenden Laut von zwei Eigenschaften
herrührt, die als Beschränkungen in bezug auf Theorien der Sprachperzeption gesehen werden
müssen. Diese Eigenschaften sind beide Aspekte des Fehlens einer Identität zwischen der
akustischen Ebene und der phonetischen Ebene der Sprache. Bei diesen Eigenschaften handelt
es sich um das Problem der Variabilität und der Segmentierung.
Neben den o.e. Gründen ergibt sich die akustische Variabilität auch daraus, daß die
Realisierung eines Lautes von den umgebenden Lauten abhängig ist. Es kommt dabei zu
einem Assimilationsprozeß, d.h. es werden einige der akustische Eigenschaften der
umgebenden Laute übernommen. So wird etwa ein // in der Umgebung eines Nasals eine
entsprechende nasale Qualität erhalten. Es kommt zu Effekten, die als Koartikulation
bezeichnet werden. Damit ist gemeint, daß sich während der Produktion eines Lautes der
Produktionsapparat bereits die Position für den nächsten Laut einnimmt und bereits bereit ist,
seine Position für den nun folgenden Laut einzunehmen. Die Koartikulation ergibt sich aus
den sich beim Sprechen rasch ändernden Konfigurationen des Vokaltrakts, was aber auch
bedeutet, daß die Information über die Identität eines Lautes über mehrere akustische
Segmente verteilt ist. Somit erhalten wir zu einem bestimmten Zeitpunkt nicht nur
Information über einen einzelnen Laut, sondern wir erhalten auch etwas an Information über
die umgebenden Laute. So ist das /b/ in „binden“, „band“ oder „Bund“ akustisch jeweils
etwas anders und dies sagt uns bereits etwas darüber, welcher Laut als nächster kommt.
In Hinblick auf die Segmentierung besteht das Problem, daß es nicht immer leicht ist, die
einzelnen Sprachlaute auseinanderzuhalten, da sie im allgemeinen in einander übergehen
(abgesehen von Verschlußlauten und beim Auftreten von Pausen). Dies bezieht sich aber
nicht nur auf die Laute innerhalb von Wörtern, sondern ist wortübergreifend, d.h. die Wörter
gehen in einander über. So kann die Sequenz /::g n/ einerseits als „schief liegen“
81 Miller, J.L./Jusczyk, P.W., 1989. Seeking the neurobiological bases of speech perception. Cognition 33: 111-
78
andererseits auch als „Schi fliegen“ segmentiert werden82. Für die Segmentierung des
Schallereignisses scheint die Beschränkung wichtig zu sein, daß wir es offensichtlich
vorziehen, eine Lautkette so zu zerlegen, daß die einzelnen Teile ein mögliches Wort bilden
(„possible-word constraint“), so daß keine Teile von Silben allein stehen bleiben83.
Weitere Strategien zur Segmentierung gesprochener Sprache ergeben sich aus den
prosodischen Eigenschaften der jeweiligen Sprache. So werden bestimmte Silben betont, d.h.
hervorgehoben, andere dagegen besitzen weniger Prominenz und können gekürzt werden, was
mit betonten Silben nicht passiert. So kann dies z.B. im Englischen so genützt werden, daß es
wahrscheinlicher ist, daß eine betonte Silbe den Beginn eines Inhaltswortes anzeigt, wogegen
unbetonte Silben nicht am Beginn eines Wortes auftreten oder auf den Beginn eines
Funktionswortes hinweisen84. Daß eine solche „metrische Segmentierungsstrategie“ (
„metrical segmentation strategy“) eine Rolle spielt, läßt sich zeigen, wenn in Experimenten
Materialien verwendet werden, die den prosodischen Erwartungen zuwider laufen. So
berichten Cutler/Butterfield (1992, s. Fn.84), daß eine Versuchsperson die nur sehr leise
dargebotene Wortfolge „conduct ascents uphill“ als „The doctor sends the bill.“ und eine
andere als „A duck descends some pill.“ wiedergaben. In diesen Fällen haben die
Versuchspersonen aufgrund einer auf der Betonung beruhenden Segmentierungsstrategie die
Wortgrenzen vor den betonten Silben gesetzt. Daß es die Segmentierungsstrategien von der
Struktur der jeweiligen Sprache beeinflußt sind, zeigt sich bei Untersuchungen mit
bilingualen Sprechern85. In Sprachen, die eine eindeutige Silbenstruktur aufweisen, z.B.
137 82 Eigentlich tritt an der jeweils relevanten Stelle eine Junktur auf, die auf die Morphemgrenzen hinweist. Allerdings werden umgangssprachlich und auch beim schnellen Sprechen nicht alle Junkturen auch in der Aussprache berrücksichtigt. 83 s. dazu: Norris, D./McQueen, J.M./Cutler, A./Butterfield, S., 1997. The possible-word constraint in the segmentation of continous speech. Cognitive Psychology 34: 191-243 84 s. dazu: Cutler, A./Butterfield, S., 1992. Rhythmic cues to speech segmentation: Evidence from juncture misperception. J. of Memory and Language 31: 218-236; Cutler, A./Norris, D., 1988. The role of strong syllables in segmentation for lexical access. J. of Experimental Psychology: Human Perceprion and Performance 14: 113-121 85 Cutler, A./Mehler, J./Norris, D./Segui, J., 1986. The syllables’s differing role in the segmentation of French and English. J. of Memory and Language 25: 385-400; dieselben 1992. The monolingual nature of speech segmentation by bilinguals. Cognitive Psychology 24: 381-410
79
Französisch, kann eine auf der Silbe basierende Segmentierungsstrategie angewendet werden.
Die Untersuchung von englisch-französisch bilingualen Sprechern mittels einer Silben-
monitoring Aufgabe86 ergab, daß diese bilingualen Sprecher entsprechend ihrer dominanten
Sprache segmentierten. Sprecher mit Englisch als dominanter Sprache verwendeten eine auf
der Betonung basierende Strategie bei den englischen Materialien und sie zeigten keine auf
der Silbe basierende Strategie. Die Sprecher mit Französisch als dominante Sprache
verwendeten eine auf Silben basierende Segmentierungsstrategie nur bei den französischen
Materialien. Somit scheinen bilinguale Sprecher – zumindest jene mit einer dominanten
Sprache – bezüglich der Segmentierung wie monolinguale zu handeln.
Wie bereits erwähnt, läßt sich eine große Variation hinsichtlich der produzierten Laute
feststellen, aber wir scheinen diese Variation nicht wahrzunehmen, denn ein von wem auch
immer, in welchem Kontext auch immer produziertes [p] stellt immer ein /p/ dar. Zu diesem
Phänomen kommt es, weil wir die gehörten Sprachlaute immer einer bestimmten Kategorie
zuordnen – es gibt keine nur teilweise Zuordnung: ein Laut gehört zu dieser oder zu jener
Kategorie. Dieses Phänomen wird als kategoriale Perzeption bezeichnet. Diese Art der
Wahrnehmung akzeptiert zumindest bei den Konsonanten (s.u.) keine fließenden Übergänge
bei der Perzeption von lautlichen Schallereignissen, sondern wir ordnen sie genau einer
Kategorie zu, sie sind entweder „stimmlos“ oder „stimmhaft“, „dental“ oder „velar“.
Die ersten Untersuchungen87 verwendeten synthetisierte Silben, die ein Kontinuum
darstellten, das sich im Artikulationsort unterschied. Obwohl es sich um ein Kontinuum
gehandelt hatte, teilten es die Versuchspersonen in drei unterschiedliche Kategorien ein,
nämlich /b/, /d/ und /g/.
86 Es mußte so schnell wie möglich auf eine Lautsequenz reagiert werde. So mußte z.B. im Französischen auf die Lautsequenzen „ba“ bzw. „bal“ reagiert werden, und zwar in den Wörter „balance“ bzw. „balcon“. Da „balance mit der Silbe „ba“ beginnt und „balcon“ mit „bal“ reagieren französische Native Speaker sehr rasch auf die jeweiligen den Anfangsilben entsprechenden Lautsequenzen. Dagegen verlängert sich die Reaktionszeit, wenn die Sequenz „bal“ in „balance“ bzw. „ba“ in „balcon“ zu finden ist. Sprecher des Englischen weisen diese Unterschiede im Erkennen dieser Lautsequenzen in „balance“ und „balcony“ nicht auf. 87 Liberman, A.M./Harris, K.S./Hoffman, H.S./Griffith, B.C., 1957. The discrimination of speech sounds within and across phoneme boundaries. J. of Experimental Psychology 53: 358-368
80
Ein weiteres Beispiel für die kategoriale Perzeption stellt die sogenannte VOT („voice onset
time“) dar. Dabei handelt es sich um die temporale Beziehung zwischen dem Beginn der
Phonation und dem Lösen des primären Verschlusses im Vokaltrakt. Bei der Produktion eines
Verschlußkonsonanten am Beginn einer einzelnen Silbe kann die Phonation (fast) gleichzeitig
mit der Verschlußlösung beginnen (oder auch bereits vorher). Die Unterscheidung zwischen
/b/ und /p/ ergibt sich nun daraus, daß bei /b/ die Phonation (fast) gleichzeitig mit der
Verschlußlösung beginnt und bei /p/ die Phonation mehr oder weniger stark verzögert auftritt.
Anzumerken ist noch, daß sich die VOTs von Sprache zu Sprache (auch bei geographischen
Varianten) unterscheiden. Da der Einsatz der Phonation im Prinzip ein Kontinuum darstellt,
kann man entsprechende synthetisierte Kontinua von VOTs von einzelnen Silben erstellen.
Wenn nun Versuchspersonen die Plosive am Anfang dieser synthetisierten Silben in Bezug
auf die Stimmhaftigkeit bzw. Stimmlosigkeit – also z.B. /b/ oder /p/ - beurteilen mußten, dann
ergab sich trotz des Kontinuums der VOTs eine deutliche Abgrenzung zwischen der
Perzeption von /b/ und /p/, wobei sich die Probanden über fast das ganze Kontinuum hinweg
zu 100% sicher waren, was sie gehört hatten88.
Die Grenzen zwischen den Kategorien sind allerdings nicht fest stehend, sondern sie
variieren, z. B. auch mit der Sprechgeschwindigkeit. Das Perzeptionssystem scheint in der
Lage zu sein sich so anzupassen, daß ein zwar absolut gesehen kurzes Intervall als ein relativ
langes behandelt wird89. Zu diesem Phänomen gibt es Hinweise, daß es möglicherweise nicht
gelernt ist, da auch Kleinkinder eine Sensibilität gegenüber der Sprechgeschwindigkeit
aufweisen90.
Obwohl die Annahme einer kategorialen Perzeption von zumindest Konsonanten in der
Psycholinguistik fast als eine Grundannahme anzusehen ist, was dazu führte, daß man
88 Lisker, L./Abramson, A., 1970. The voicing dimension: Some experiments in comparative phonetics. In. Proceedings of the 6th Internationl Congress of the Phonetic Sciences, Prague 1967. Prague: 563-567 89 Summerfield, Q., 1981. Articulatory rate and perceptual constancy in phonetic perception. J. of Experimental Psychology: Human Perception and Performance 7: 1074-1095
81
annahm, daß die Hörer nicht zwischen leicht unterschiedlichen Mitgliedern einer Kategorie
unterscheiden können, scheint diese Annahme doch nicht so ausnahmslos zu stimmen. So
stellten Pisoni/Tash (1974)91 fest, daß die Versuchspersonen schneller darauf reagieren
konnten, daß zwei /ba/-Silben dieselben waren, wenn die [b]-Laute akustisch identisch waren,
als wenn sich diese Laute in Bezug auf die VOT leicht unterschieden. Offensichtlich konnten
die Versuchspersonen auch Unterschiede innerhalb einer Kategorie erkennen.
Ein interessantes Problem in Hinblick auf die Worterkennung stellt die Frage dar, ob es
notwendig ist, daß vor der Identifizierung von Wörtern die einzelnen Phoneme erkant werden
müssen. So zeigten Untersuchungen92, daß Probanden, wenn sie so schnell wie möglich auf
ein spezifisches Element – ein Phonem oder eine Silbe – reagieren mußten, länger brauchten,
um auf das Phonem zu reagieren als auf die Silbe. Dies würde nun bedeuten, daß wir die
Wörter nicht aufgrund ihrer Phoneme erkennen, sondern nur aufgrund der Perzeption einer
fundamentaleren Einheit, nämlich ihrer Silben. Diese Folgerung wurde allerdings auch als
sehr problematisch angesehen93, indem in Frage gestellt wurde, daß diese Art von Test
überhaupt eine direkte Beziehung zur Perzeption darstellt. Denn wenn man sich schneller
einer höheren Einheit bewußt wird, bedeutet das noch nicht, daß diese auch zuerst verarbeitet
wird.
In der Folge wurde auch eine Theorie, die von zwei Kodierungen – einem prälexikalischen
(phonetischen) und einem postlexikalischen (phonemischen) Code – ausging vorgeschlagen94.
Während der prälexikalische Code direkt aus der Analyse des akustischen Input abgeleitet
wird, kommt im postlexikalischen Code die Information der Wörter, also der Einheiten der
höheren Ebene, zum tragen. Als allerdings die experimentelle Unterstützung dieser Theorie
90 Miller, J.L./Jusczyk, P.W., 1989. Seeking the neurobiological bases of speech perception. Cognition 33: 111-137 91 Pisoni, D.B./Tash, J., 1974. Reaction times to comparisons within and across phonetic categories. Perception and Psychophysics 15: 285-290 92 Savin, H.B./Bever, T.G., 1970. The non-perceptual reality of the phoneme. J. of Verbal Learning and Verbal Behavior 9: 295-302 93 Foss, D.J./Swinney, D.A., 1973. On the psychological reality of the phoneme: Perception, identification, and consciousness. J. of Verbal learning and Verbal Behavior 12: 246-257
82
nicht dementsprechend ausfiel95, wurde daraus geschlossen, daß die Reaktion bei den
Phonem-Monitoring Aufgaben aufgrund des prälexikalischen Codes erfolgt, was bedeutet,
daß die Phoneme ein Teil des prälexikalischen Codes sind.
Grundsätzlich stellt sich die Frage, ob überhaupt eine vollständige phonematische
Klassifikation erfolgt sein muß, bevor auf das entsprechende Lexem zugegriffen werden kann.
So haben Marslen-Wilson/Warren (1994)96 darauf hingewiesen, daß der lexikalische Zugang
von der im akustischen Signal vorhandenen Merkmalsinformation aus erfolgt, wobei die
bereits oben erwähnte koartikulatorische Information von Vokalen benutzt wird, um relativ
früh eine Hilfe zur Identifikation des folgenden Konsonanten zu haben.
Zusammenfassend hat sich gezeigt, daß doch die meisten Daten darauf hinweisen, daß
während der Worterkennung zwar Phoneme verarbeitet werden, es jedoch nicht notwendig ist,
die vollständige phonematische Struktur des Wortes kodiert zu haben, um mit der dem
Erkennen des Wortes zu beginnen.
Ein interessanter Beitrag bezüglich der Phonemrepräsentationen kommt von Morais/Kolinsky
(1994)97, die vorschlagen, daß es zwei unterschiedliche Phonemrepräsentationen gibt: ein
unbewußtes System, das für die Perzeption und die Produktion von Sprache zuständig ist und
ein bewußtes System, das sich im Laufe des Erlernens des Lesens und Schreibens entwickelt.
Dazu ist anzumerken, daß diese Überlegungen wohl nur für Sprachen gelten können, die eine
alphabetische Orthographie aufweisen.
Bisher sind wir bezüglich der Vorstellung, wie eine Theorie der Lautwahrnehmung aussehen
könnte, davon ausgegangen, daß der gehörte Schall „einfach“ in Phoneme überführt wird.
Daneben gibt es aber noch weitere Annahmen wie z.B. die Motor-Theorie der
Lautwahrnehmung („motor theory of speech perception“). In diesem Modell wurde
94 Foss, D.J./Blank, M.A., 1980. Identifying the speech codes. Cognitive Psychology 12: 1-31 95 Foss, D.J./Gernsbacher, M.A., 1983. Cracking the dual code: Toward a unitary model of phoneme identification. J. of Verbal learning and Verbal Behavior 22: 609-632 96 Marslen-Wilson, W.D./ Warren, P., 1994. Levels of perceptual representation and process in lexical access: Words, phonemes, and features. Psychological Review 101: 653-675
83
angenommen, daß es bei Lautwahrnehmung zu einer Innervation der Sprechmuskulatur des
Hörers kommt und daß damit die Perzeption auch der Laute auf dieser im Stillen
nachvollzogenen Artikulation beruht.
Einen weiteren Aspekt der Perzeption betrifft die Frage, inwieweit der Kontext – und zwar
nicht der unmittelbar lautliche – sondern der Kontext eines ganzen Wortes bzw. sogar eines
Satzes, die Perzeption eines Lautes beeinflussen kann. D.h. es geht darum, ob der Prozeß der
Lautperzeption ein reiner „bottom-up“ Prozeß ist oder ob er auch durch „top-down“
Information beeinflußt wird. Wenn sich „top-down“ Prozesse nachweisen lassen, dann kann
man davon ausgehen, daß die Lautperzeption zumindest zum Teil ein interaktiver Prozeß ist.
Die Ergebnisse von Untersuchungen98, bei denen ein nicht eindeutig erkennbaren Laut, z.B.
/g/ oder /k/, am Beginn des auslautenden Teils eine Wortes, z.B. „-iss“, angefügt worden war,
zeigten, daß die Probanden dazu tendierten, jenen Laut wahrgenommen zu haben, der ein
Wort ergibt – in diesem Fall „kiss“. D.h. in jenen Fällen, wo die perzeptuelle Information
allein nicht ausreicht, um den Laut eindeutig einer Kategorie zuzuordnen, wird offensichtlich
auf lexikalische Information zurückgegriffen.
Im Zusammenhang mit kontextuellen Einflüssen auf die Lautperzeption sind auch die bereits
„klassischen“ Untersuchungen zu sehen, die einen Effekt nachzuweisen scheinen, der als
„phoneme restoration“ bezeichnet wird. In diesen Untersuchungen99 wurden Sätze präsentiert
wie „The state governors met with their respective legi*latures in the capital city“. An der mit
* markierten Stelle wurde das /s/ durch ein Räuspern oder ein Hüsteln ersetzt. Den Probanden
fiel diese Ersetzung allerdings nicht auf, woraus geschlossen wurde, daß sie diesen Laut
ersetzten und zwar aufgrund der Verwendung von syntaktischer und semantischer
97 Morais, J./Kolinsky, R. 1994. Perception and awareness in phonological processing: The case of the phoneme. Cognition 50: 287-297 98 Ganong, W.F., 1980. Phonetic categorization in auditory word perception. J. of Experimental Psychology: Human Perveption and Performance 6: 110-125; Connine, C.M./Clifton, C., 1987. Interactive use of lexical information in speech perception. J. of Experimental Psychology: Human Perception and Performance 13: 291-319
84
Information. Dieser Effekt war allerdings nicht beobachtbar, wenn der Laut durch ein kurzes
Intervall von Stille ersetzt wurde. Weiters wurden den Versuchspersonen Sätze wie folgende
vorgegeben: It was found that the *eel was on the orange.
It was found that the *eel was on the axle.
It was found that the *eel was on the shoe.
It was found that the *eel was on the table.
Die verwendeten Bänder waren so konstruiert, daß es zwischen den Sätzen keine
Unterschiede gab außer den letzten Wörtern. Anstelle des fehlenden Lautes gab es wieder ein
Räuspern. Die Ergebnisse zeigten, daß die Versuchspersonen die Laute entsprechend dem
semantischen Kontext ersetzten, also „peel“, „wheel“, „heel“ und „meal“.
Diese Ergebnisse scheinen doch deutlich darauf hinzuweisen, daß die Lautperzeption auch
von Informationen auf höheren Ebenen – der syntaktischen und semantischen – beeinflußt
wird. Allerdings wurde auch in Frage gestellt, ob die Versuchspersonen den fehlenden Laut
auch tatsächliche perzipiert hatten100, den die Ersetzung könnte auch auf einer höheren Ebene
passiert sein. D.h. also: Beeinflußt der Kontext tatsächlich die Perzeption der Laute oder
erfolgt dies erst durch einen späteren Prozeß?
In einer Reihe von Untersuchungen zu diesem Problem kam Samuel101 zu dem Schluß, daß
der lexikalische Kontext tatsächlich zur Wiederherstellung von Phonemen führt und dieser
Prozeß erfolgt prälexikalisch. Außerdem zeigte sich, daß der Satzkontext das Erkennen der
Phoneme nicht beeinflußt, sondern sich auf die postlexikalische Verarbeitung auswirkt.
99 Warren, R.M./Warren, R.P., 1970. Auditory illusions and confusions. Scientific American 223: 30-36; Obusek, C.J./Warren, R.M., 1973. Relation of the verbal transformation and the phonemic restoration effects. Cognitive Psychology 5: 97-107 100 s. Fodor, J.A., 1983. The modularity of mind. Cambridge, MA 101 Samuel, A.G., 1981. Phonemic restoration : Insights from a new methodology. J. of Experimental Psychology: General 110: 474-494; ders. 1987. The effect of lexical uniqueness on phonemic restoration. J. of Memory and Language 26: 36-56; ders. 1990. Using perceptual-restoration effects to explore the architecture of perception. In: G.T.M. Altmann (ed.), Cognitive models of speech processing, Cambridge, MA: 295-314; ders. 1996. Does lexical information influence the perceptual restoration of phonemes? J. of Experimental Psychology: General 125: 28-51
85
Mit dem Erkennen der einzelnen Laute ist die Worterkennung keineswegs schon
abgeschlossen. Das Ergebnis der Lauterkennung ist eine Kette von Phonemen, aus der die
einzelnen Lexeme „herausgefiltert“ werden müssen. Für das Erkennen der Lexeme können
zwei Wege angenommen werden, entweder besteht eine direkte Verbindung zwischen der
Phonemebene und der Lexemebene oder das Erkennen erfolgt über eine Zwischenstufe – also
handelt es sich entweder um lexikalische oder um prälexikalische Prozesse. Unabhängig
davon umfaßt der Prozeß der Worterkennung mindestens drei Schritte102: erster Kontakt
(„initial contact“), lexikalische Auswahl („lexical selection“) und Worterkennen („word
recognition“). Es besteht die Möglichkeit, daß sich diese Stadien überlappen, aber dies ist eine
empirische Frage und zwar auch in Hinblick auf die Annahme von modularen Prozessen. (In
einem Modell, das eine Lemmaebene annimmt (wie das oben vorgestellte
Produktionsmodell), muß nach der lexikalische Auswahl eine Verbindung zum jeweiligen
Lemma hergestellt werden, um auf diese Weise die entsprechende grammatikalische
Information zu integrieren. D.h. in diesem Fall ist die abschließende Phase ein
Integrationsprozeß.)
Die Worterkennung beginnt also sobald durch die Repräsentation des lautlichen Inputs ein
erster Kontakt mit dem Lexikon hergestellt wird. Aufgrund der Übereinstimmung der
Elemente in der Phase des ersten Kontakts werden die lexikalischen Einträge aktiviert. Diese
Aktivierung hat je nach Modell der Worterkennung (s.u.) ein unterschiedliches Ausmaß. In
der Phase der lexikalischen Selektion nimmt die Aktivierung soweit zu bis ein bestimmter
lexikalischer Eintrag ausgewählt ist. Mit dem Abschluß der Selektion ist die Worterkennung
erfolgt.
Daß die Worterkennung einen äußerst raschen und on-line arbeitenden Prozeß darstellt,
zeigen z.B. die Leistungen bei Untersuchungen zum „shadowing“ („Schattensprechen“). Die
Aufgabe dabei ist, einen über Kopfhörer gehörten Text so schnell wie möglich
102 Frauenfelder, U.H./Tyler, L.K., 1987. The process of spoken word recognition: An introduction. Cognition
86
nachzusprechen. Dies gelingt manchen Sprechern so gut, daß nur 250 ms hinter dem
jeweiligen Textelement zurückliegen103. Es stellt sich nun die Frage, an welchem Punkt in
der Lautkette wird ein Lexem erkannt? Eine Möglichkeit dies festzustellen, bieten die
sogenannten „Gating“-Experimente104. Bei diesen Untersuchungen hört der Proband einen
akustischen Input in kleinen, zeitlich getrennt aufeinanderfolgenden Teilen von ca. 50 ms. Die
Aufgabe besteht nun darin, daß die Versuchsperson reagieren muß, sobald sie glaubt das Wort
erkannt zu haben. Dies könnte z.B. bei einem Wort wie „Freundschaft“ an jenem Punkt
erfolgen, an dem das Segment [] verarbeitet worden ist. Dieser Punkt, an dem ein Wort
eindeutig von allen anderen Wörtern unterscheidbar wird, d.h. die analysierte Lautsequenz ist
nur für dieses Wort charakteristisch, wird als Diskriminationspunkt („uniqueness point“)
bezeichnet. Das Erkennen eines Wortes kann nun auch erst nach dem Diskriminationspunkt
erfolgen, aber es kann auch schon vor diesem Punkt erfolgen – vor allem beim Vorliegen von
entsprechend einschränkenden Kontexten. Der Punkt, an dem dies erfolgt, wird als
Isolationspunkt („isolation point“) bezeichnet. Dies ist also jener Punkt, an dem ein Teil der
Probanden eine Entscheidung über das Zielwort getroffen haben, sei sie nun richtig oder
falsch. Beim Isolationspunkt hat der Hörer eine Entscheidung hinsichtlich eines möglichen
Kandidaten für ein Wort getroffen. In der Folge wird nun der restliche Input beobachtet, bis
zu jenem Punkt, an dem ein bestimmter Grad an Sicherheit erreicht ist – dies ist dann der
Worterkennungspunkt („recognition point“). Nach der Worterkennung kommt es zum
lexikalischen Zugriff („lexical access“), bei dem die gesamte Information eines Wortes – also
die phonologische, morphosyntaktische, semantische und pragmatische – verfügbar wird. In
der Folge kommt es nun zum eigentliche Verstehensprozeß, in dem die syntaktischen und
semantischen Eigenschaften des Wortes in die Satzrepräsentationen integriert werden.
25: 1-10 103 Marslen-Wilson, W., 1973. Linguistic structure and speech shadowing at very short latencies. Nature 244: 522-523 104 Marslen-Wilson, W.D./Tyler, L.K., 1980. The temporal structure of spoken language understanding. Cognition 8: 1-71
87
5.1.1 Modelle der Worterkennung
Wie bereits erwähnt, müssen wir, bevor wir auf das Lexikon zugreifen können, den Output
des Hörnervs in ein entsprechendes Format „übersetzen“. Dabei gingen die frühen Modelle
der Lauterkennung von einem „Schablonenabgleich“ („template matching“) aus. D.h. die
Ziele sind als Schablonen gespeichert und die Identifizierung erfolgt dann, wenn eine
entsprechende übereinstimmende Schablone gefunden wurde. Da aber im sprachlichen Signal
viel zu viel Variabilität vorhanden ist, bilden solche Schablonenmodelle keine plausible
Erklärung für die Laut- und Worterkennung.
Prinzipiell können wir zwei Arten von Modellen für die Worterkennung unterscheiden. Das
Kohortenmodell („cohort model“) mit seiner bottom-up Verarbeitung und konnektionistische
Modelle, wie das TRACE Modell, die die interaktive Natur der Worterkennung betonen. Beim
Kohortenmodell können wir zwischen einer frühen und einer späteren Variante unterscheiden,
wobei die spätere eine Modifizierung darstellt, die zum Teil als Antwort auf das TRACE
Modell zu sehen ist.
Das Kohortenmodell
Das Kohortenmodell wurde von Marslen-Wilson und Welsh105 entwickelt. Die zentrale
Überlegung ist bei diesem Modell, daß wir, wenn wir gesprochene Sprache hören, sozusagen
eine „Kohorte“ von Lexemen aktivieren, die alle mit dem ersten Phonem des gehörten Wortes
beginnen. In der Folge, wenn weitere Phoneme identifiziert sind, werden immer mehr
Kandidaten aus der ursprünglich aktivierten Kohorte ausgeschieden, bis schließlich nur mehr
ein Lexem übrigbleibt. Damit ist die Worterkennung erfolgt. Wie bereits erwähnt muß man
105 Marslen-Wilson, W.D./Welsh, A., 1978. Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology 10: 29-63; Marslen-Wilson, W.D., 1984. Spoken word recognition: A tutorial review. In: H. Bouma/D.G. Bouwhis (eds.), Attention and Performance X: Control of language processes. Hove, UK: 125-150; Marslen-Wilson, W.D., 1987. Functional parallelism in spoken word recognition. Cognition 25: 71-102
88
zwischen einer früheren (Marslen-Wilson, 1984101) und einer späteren (Marslen-Wilson,
1989, 1990106)Version unterscheiden, wobei die frühere mehr Interaktion erlaubte, und die
spätere eine autonomere Verarbeitung aufweist und das System der Worterkennung besser mit
nicht präzisen Wortanfängen umgehen kann.
Dieses Modell besteht aus drei Verarbeitungsstufen. Im ersten Schritt, dem Zugangsstadium
(„access stage“), werden aufgrund der perzeptuellen Repräsentation Lexeme aktiviert, die als
mögliche Kandidaten für das jeweilige Wort in Frage kommen könnten – eine Kohorte. Der
nächste Schritt besteht in einem Auswahlverfahren („selection stage“), in dem nun ein
Element aus der Kohorte ausgewählt wird. Den Abschluß bildet ein Integrationsstadium
(„integration stage“), bei dem nun die syntaktischen und semantischen Eigenschaften des
Wortes genutzt werden, um es z.B. in die Repräsentation eines ganzen Satzes zu integrieren.
Die beiden ersten Schritte, Zugang und Auswahl, sind prälexikalisch und der dritte,
Integration ist postlexikalisch.
Wenn wir also den Anfang eines Wortes hören, wird eine Kohorte von Wörtern aktiviert, die
denselben Anfang haben. In der Folge kommt es zu einer aktiven Eliminierung von
Kandidaten, wobei alle möglichen Mittel herangezogen werden, wie weitere phonologische
Information, aber auch der semantische und syntaktische Kontext. Die meiste
Verarbeitungsaktivität tritt rund um den Diskriminationspunkt auf – also dann wenn das Wort
eindeutig von den anderen unterschieden werden kann. Dazu ein Beispiel mit zunehmenden
Segmenten:
1) /b/
2) /be/
3) /bet/
4) /betr/
106 Marslen-Wilson, W.D.(ed), 1989. Lexical representation and process. Cambridge, MA; Marslen-Wilson, W.D., 1990. Activation, competition, and frequency in lexical access. In: G.T.M. Altmann (ed.), Cognitive models of speech processing. Cambridge, MA: 148-172
89
5) /betre/
6) /betret/
7) /betretn/
Wenn zuerst /b/ wahrgenommen haben, dann ist klar, daß wir eine große Zahl von
Wortkandidaten haben. Aber mit jedem weiteren Segment verringert sich die Anzahl, so daß
bei /betr/ noch eine große Zahl von möglichen Kandidaten vorhanden sind, die durch das
nächste Segment /e/ allerdings deutlich eingeschränkt werden. Im Falle der Kette /betret/ ist
nun die Kohorte so eingeschränkt, daß nur mehr ein Wort – genauer eigentlich ein
Basismorphem – übrig bleibt. Es ist allerdings anzumerken, daß der Worterkennungspunkt
nicht mit dem Diskriminationspunkt übereinstimmen muß. Wenn wir einen Satz wie „Der
frischgemähte Rasen darf nicht be- (werden)“, so kann hier bereits der Kontext
ausschlaggebend sein, daß alle anderen Kandidaten mit Ausnahme von „betreten“ bereits aus
der Kohorte ausgeschieden worden sind. Damit kann das Wort bereits vor seinem
Diskriminationspunkt erkannt worden sein. Das ältere Modell war sehr interaktiv in Hinblick
darauf, daß der Kontext das prälexikalische Auswahlstadium beeinflussen kann. Das Problem
dabei ist allerdings, daß ein starker kontextueller Einfluß zu einem Fehler führen kann.
Andererseits kann bei schlechter sensorischer Information der Worterkennungspunkt auch
deutlich nach dem Diskriminationspunkt liegen. Der Diskriminationspunkt und der
Worterkennungspunkt fallen wohl nur dann zusammen, wenn es sich um ein deutlich
gesprochenes Einzelwort handelt.
In der späteren Version (s. Fn. 102) wird der Einfluß des Kontexts erst im Integrationsstadium
wirksam. D.h. der Kontext kann die Zahl der Kandidaten nicht schon vor dem
Diskriminationspunkt verringern. Diese Änderung ergab sich aus den Ergebnissen von
empirischen Studien, die die Gating-Methode verwendeten, und die darauf hinwiesen, daß die
90
Rolle des Kontexts doch weniger groß ist als zuerst angenommen. In diesen Studien107 wurde
festgestellt, daß die Probanden ca. 333 ms benötigen, um ein einzelnes Wort zu identifizieren,
aber für ein Wort in einem entsprechenden Kontext nur 199 ms. Aber es zeigte sich auch, daß
die bis zum Erkennungspunkt aktivierten Kandidaten der Kohorte solche sind, die mit der bis
zu diesem Punkt erstellten perzeptuellen Repräsentation übereinstimmen – aber nicht mit dem
Kontext. Somit stellte sich heraus, daß die syntaktischen und semantischen Beschränkungen
durch den Kontext – zumindest am Beginn – die Aktivierung von Wortkandidaten, die mit
dem sensorischen Input übereinstimmen aber nicht mit dem Kontext, nicht verhindern.
Mit Hilfe der Technik des „cross-modal priming“ wurde festgestellt, daß am Beginn eines
Wortes ein Priming (assoziative Aktivierung) von mit dem Zielwort nicht in Beziehung
stehenden Wörtern möglich ist. In dieser Untersuchung108 hörten die Versuchspersonen über
Kopfhörer Sprache, während sie gleichzeitig auf einen Computermonitor schauten, um eine
lexikalische Entscheidungsaufgabe durchzuführen. Auf diese Weise konnte die Beziehung
zwischen dem Wort auf dem Bildschirm und dem Gesprochenen sowie die zeitliche Relation
zwischen den beiden systematisch variiert werden. Für den Test wurde Holländisch als
Sprache verwendet. Die Versuchspersonen hörten unterschiedliche Teile eines Wortes wie
„kapitein“ („Kapitän“), bevor ein mit diesem in Beziehung stehendes Wort oder ein
Kontrollwort auf dem Bildschirm erschien. Beim Hören von „kap“ kann das Wort noch nicht
diskriminiert werden, denn es könnte auch z.B. der Beginn von „Kapital“ sein. In dieser
Untersuchung stellte Zwitserlood nun fest, daß es in einer solchen Situation zu einer
Aktivierung von Wörtern kommt, die mit beiden möglichen Wörtern („Kapitän“ und
„Kapital“) in Beziehung stehen, nämlich „Schiff“ und „Geld“. Wenn das ganze Wort gehört
worden war, war aber nur mehr eine Aktivierung der mit diesem Wort in Verbindung
107 Grosjean, F., 1980. Spoken word recogniton processes and the gating paradigm. Perception and Psychophysics 28: 267-283; Tyler, L.K./Wessels, J., 1983. Quantifying contextual contributions to word-recognition processes. Perception and Psychophysics 34: 409-420; Tyler, L.K., 1984. The structure of the initial cohort. Perception and Psychophysics 36: 415-427
91
stehenden möglich. Ein weiteres wichtiges Ergebnis stellte die Erkenntnis dar, daß ein
entsprechender Kontext keinen Effekt in der frühen Phase des Wortes ausübte. Ein
Kontexteffekt wurde aber nach dem Isolationspunkt des Wortes festgestellt. Der Kontext
steigert das Aktivierungsniveau des spezifischen Wortes in Bezug zu den anderen
Kandidaten. Diese Ergebnisse weisen darauf hin, daß der Satzkontext einen eher späten
Einfluß auf das Verstehen eines Wortes und seine Integration in die Syntax und Semantik
eines Satzes hat.
Was passiert aber nun, wenn der lautliche Beginn eines Wortes nicht entsprechend perzipiert
werden kann? Dies würde ja bedeuten, daß das richtige Element in der Kohorte mit den
Wortanfängen fehlt. Trotzdem können wir meistens das korrekte Wort identifizieren. Daher
ist im späteren Kohortenmodell für diese Fälle der Grad der Überlappung zwischen dem
Perzept und den Kandidaten für die Erzeugung der Kohorten wichtig. In dieser späteren
Variante des Kohortenmodells wird auch angenommen, daß der Aktivierungsgrad der
Kandidaten, für die es keine weitere positive perzeptuelle Information gibt, wieder auf das
Ruheniveau zurückgeht. Sie können allerdings durch nachfolgende positive Information
„wiederbelebt“ werden.
Daß die Wortanfänge eine wichtige Rolle für die Worterkennung spielen, zeigt sich auch
darin, daß Teile eines Wortes, die mit dem Beginn eines Wortes übereinstimmen, fast genau
so gute Primingergebnisse liefern wie das Wort selbst (s. Marslen-Wilson, 1987 Fn.101,
Zwitserlood, 1989 Fn.104). Des weiteren lassen sich mit Teilen von sich reimenden Elementen
eines Wortes kaum Primingeffekte erzielen109.
108 Zwitserlood, P. 1989. The locus of the effects of sentential-semantic context in spoken-word processing. Cognition 32: 25-64 109 Marslen-Wilson, W.D., 1993. Issues of process and representation in lexical access. In G.T.M. Altmann/R. Shillcock (eds.), Cognitive models of speech processing .Hove, UK: 187-210
92
Die Häufigkeit der Kandidaten in einer Kohorte beeinflußt ebenfalls die Worterkennung. So
stellte Marslen-Wilson (1990110) fest, daß die Zeit, die benötigt wird, um ein Wort zu
erkennen, auch von der Frequenz der Kandidaten in der Kohorte abhängt. So dauert es bei
hochfrequenten Konkurrenten länger bis der Isolationspunkt erreicht ist. Am längsten dauert
es bei einem niederfrequenten Zielwort und hochfrequenten Konkurrenten. Die zweitlängste
Zeit wird gebraucht, wenn sowohl das Zielwort als auch die Konkurrenten niederfrequent
sind. Die kürzeste Zeit benötigen hochfrequente Zielwörter neben niederfrequenten
Konkurrenten.
Das Kohortenmodell wurde – wie bereits erwähnt – im Laufe der Zeit überarbeitet, so daß im
späteren Modell die einzelnen Elemente nicht mehr entweder da oder nicht da sind, sondern
das Niveau ihrer Aktivierung entspricht der Genauigkeit der Übereinstimmung des jeweiligen
Kandidaten mit der akustischen Information. Das bedeutet, daß das Aktivierungsniveau der
Kandidaten schrittweise auf das Ausgangsniveau zurückgeht. Damit läßt sich auch die
Korrektur von Fehlern besser erklären.
Das TRACE-Modell
Das TRACE-Modell (McClelland/Elman, 1986111) ist ein interaktives Erkennungsmodell für
gesprochene Wörter, das von einem ebenfalls interaktiven Erkennungsmodell für Buchstaben
und geschriebene Wörter112 abgeleitet wurde. Im folgenden sollen grundsätzlichen
Charakteristika dieses Modells dargestellt werden, wobei allerdings auf die mathematischen
Details nicht eingegangen wird.
Einen wichtigen Punkt in diesem Modell stellt die Annahme dar, daß die „top-down“
Verarbeitung – also der Kontext – eine wichtige Rolle bei der Worterkennung spielt. D.h. der
110 Marslen-Wilson, W.D., 1990. Activation, competition, and frequency inlexical access. In: Altmann, G.T.M. (ed.), Cognitive models of speech processing: Psycholinguistic and computational perspectives. Cambridg, MA: 148-172 111 McClelland, J.L./Elman, J.L., 1986. The TRACE model of speech perception. Cognitive Psychology 18: 1-86
93
lexikalische Kontext kann akustische Perzeption beeinflussen und Information oberhalb der
Wortebene kann direkten Einfluß auf die Verarbeitung der Wörter nehmen. Da das TRACE-
Modell ein konnektionistisches Modell ist, besteht es aus einer Vielzahl von einfachen, mit
einander verbundenen Verarbeitungseinheiten, die drei Verarbeitungsebenen bilden. Die
Einheiten auf der Eingabeebene stellen phonologische Merkmale dar, die wiederum mit
phonematischen Einheiten verbunden sind und diese sind nun mit den Ausgabeeinheiten
verbunden, die die Wörter repräsentieren. Wenn nun die Eingabeeinheiten aktiviert werden,
dann verbreitet sich diese Aktivierung im Netzwerk, so daß am Ende nur mehr eine aktivierte
Ausgabeeinheit übrig bleibt. Das ist nun jenes Wort, das das System erkannt hat. Alle
Verbindungen arbeiten in beide Richtungen, d.h. die Information kann in beide Richtungen
fließen, womit die Verarbeitung sowohl bottom-up als auch top-down erfolgen kann. Auf
jeder Ebene gibt es zwischen den Einheiten hemmende Verbindungen, was dazu führt, daß
sobald eine Einheit aktiviert ist, diese die Aktivierung von anderen, konkurrierenden
Einheiten hemmt.
Das Modell wird in einen Computer implementiert und die einzelnen Durchläufe der
Simulationen werden mit der menschlichen Sprachperzeption verglichen. So zeigt das Modell
z.B. bei einem ambigen Input – zwischen /p/ und /b/ - gefolgt von einer Endung, die „-lug“
entspricht, daß in diesem Fall /p/ erkannt wird. Ebenso wird von diesem Modell die
kategoriale Perzeption simuliert. Zusammenfassend gesehen, kann das TRACE-Modell gut
mit den Effekten des Kontexts umgehen und auch mit der akustischen Variabilität. Weiters
lassen sich damit auch der Effekt des Ersetzens von fehlenden Phonemen („phonemic
restoration effect“) und die Effekte der Koartikulation erklären.
112 McClelland, J.L./Rumelhart, D.E., 1981. An interactive activation model of context effects in letter perception: Part 1. An account of the basic findings. Psychological Review 88: 375-407
94
Allerdings lassen sich auch problematische Aspekte in diesem Modell feststellen. So führte
Massaro (1989113) ein Experiment durch, bei dem die Versuchspersonen eine
Entscheidungsaufgabe zwischen zwei Phonemen - /l/ und /r/ - durchzuführen hatten. Die
Kontexte für die Laute, die sie hörten, waren /s_i/, /p_i/ und /t_i/. Der erste Kontext
begünstigt /l/, der dritte begünstigt /r/ und der zweite begünstigt beiden Phoneme in einem in
etwa gleichen Ausmaß. Das Ergebnis war, daß der Kontext die Leistungen insofern
beeinflußte als die Versuchspersonen dazu neigten ein mehrdeutiges Phonem im Kontext von
/s_i/ als /l/ und im Kontext von /t_i/ als r zu identifizieren. Das Verhalten der
Versuchspersonen unterschied sich aber von dem des TRACE-Modells: In diesem Modell hat
der Kontext dann den größten Einfluß, wenn die Ambiguität des sprachlichen Signals am
größten ist und hat weniger Einfluß, wenn die Ambiguität geringer ist. Bei den Probanden
allerdings bleibt der Effekt des Kontexts in Bezug zur Ambiguität des Signals konstant. Trotz
der Veränderung des Modells114 scheinen die Probleme bestehen geblieben zu sein115.
Das Hauptproblem dieses Modells liegt in der Betonung des Kontexts – top-down
Verarbeitung – im Prozeß der Worterkennung. In einer Studie116 wurde festgestellt, daß
„eingebildete“ Phoneme – ähnlich dem „phonemic restoration effect“ – die aufgrund von
lexikalischen top-down Prozessen entstanden waren die Koartikulation beeinflussen können.
Die Koartikulation ist ja in Phänomen, das bei Perzeption auf der lautlichen Ebene eine Rolle
spielt, und sie wird auch im TRACE-Modell entsprechend simuliert. In Wortpaaren wie
„English (d)/(g)ates“ oder „copious (d)/(g)ates“ lag das erste Phonem des zweiten Wortes auf
einem Kontinuum zwischen /d/ und /g/. Aufgrund von koartikulatorischen Effekten beeinflußt
der letzte Laut des ersten Wortes die Produktion des ersten des zweiten Wortes. Die Hörer
113 Massaro, D.W., 1989. Testing between the TRACE model and the fuzzy logical model of speech perception. Cognitive Psychology 21: 398-421 114 McClelland, J.L., 1991. Stochastic interactive processes and the effect of context on perception. Cognitive Psychology 23: 1-44 115 Massaro, D.W./Cohen, M.M., 1991. Integration versus interactive activation: The joint influence of stimulus and context in perception. Cognitive Psychology 23: 558-614 116 Elman, J.L./McClelland, J.L., 1988. Cognitive penetration of the mechanisms of perception: Compensation for coarticulation of lexically restored phonemes. J. of Memory and Language 27: 143-165
95
sind sehr sensibel für diesen Effekt, so daß es eher der Fall ist, daß nach [] ein [d] gehört
wird, und nach [] eher ein [g]. Dieser Effekt wurde in dieser Studie beobachtet, und zwar
auch dann, wenn die beiden Auslaute durch einen Laut ersetzt wurden, der in der Mitte
zwischen [] und [s] lag. Dieses Ergebnis scheint eher ein interaktives als ein autonomes
Modell zu unterstützen. Allerdings lassen sich diese Daten auch als Ergebnis der Verwendung
von sequentieller Information bei der Perzeption von Lauten interpretieren. So ergab eine
andere Studie117, daß dieser Effekt auch bei der Kategorisierung von Verschlußkonsonanten
auftrat, selbst wenn ihnen bei Pseudowörtern ein ambiger frikativer Laut vorausging. Z.B.:
Bei einem Pseudowort wie „der-„ wird eher ein [s] als Fortsetzung erwartet und bei „nai-„
eher ein []. Tatsächlich lag der Laut zwischen diesen beiden. Diesen Pseudowörtern folgten
nun Wörter, die mit einem Verschlußkonsonanten des Kontinuums von [t] nach [k] – von
„tapes“ nach „capes – begannen. Die Identifikation des Verschlußkonsonanten wurde nun in
Abhängigkeit vom Kontext des Pseudowortes entsprechend beeinflußt. Da aber das
vorausgehende Element ein Pseudowort war, konnte wohl nicht das lexikalische Wissen
benutzt worden sein, was darauf hinweist, daß ein Wissen über die Abfolgemöglichkeiten von
Phonemen genützt wird.
Das TRACE-Modell kann zwar recht gut mit kontextuellen Effekten umgehen, aber es ist
zumindest fraglich, inwieweit seine Voraussagen auch durch empirische Befunde gestützt
werden.
117 Pitt, M.A./McQueen, J.M., 1998. Is compensation for coarticulation mediated by the lexicon? J. of Memory and Language 39: 347-370