Download pdf - Einführung in die Psycholinguistik (I) 1.0 Einleitendes · Die Psycholinguistik befaßt sich also mit den psychologischen Prozessen beim Produzieren, beim Verstehen, beim Erwerb

1

Einführung in die Psycholinguistik (I)

1.0 Einleitendes

Die Verwendung von Sprache im Sprechen und Hören sowie im Lesen und Schreiben ist uns

allen so geläufig und selbstverständlich, daß wir kaum darüber nachdenken, was eigentlich

unseren tagtäglichen sprachlichen Handlungen zugrunde liegt. Was passiert nun alles, was

sind die Voraussetzungen, wenn wir Sprechen, Verstehen, Lesen oder Schreiben? Nun, wir

müssen einmal mit der entsprechenden biologischen „Hardware“ ausgestattet sein, d.h. wir

benötigen unser Gehirn, um den Inhalt unserer Aussagen festzulegen (und auch um die

Aussagen anderer zu verstehen). Wir benötigen einen entsprechenden Artikulationsapparat,

um die jeweiligen Laute zu produzieren, wobei diese Produktionen ebenfalls vom Gehirn

gesteuert werden. Während unserer Entwicklung als Kinder erwerben wir die Sprache

/Sprachen unserer Umgebung, mit denen wir dann mit unseren Mitmenschen kommunizieren.

Im Laufe des weiteren Lebens können noch weitere Sprachen dazukommen. Schließlich kann

es auch vorkommen, daß wir uns versprechen, z.B. daß wir statt „beeidet“ „beeidigt“ sagen.

Die Verwendung der Sprache kann aber auch durch Krankheiten oder Unfälle deutlich

erschwert oder gestört sein. Gerade in solchen Fällen können wir feststellen, wie komplex die

Vorgänge sind, die für das Sprechen, Verstehen, Lesen und Schreiben, aber auch das Erinnern

von Sprache, notwendig sind.

Mit den psychologischen Prozessen, die bei all dem hier nur ganz allgemein und oberflächlich

aufgezählten sprachlichen Verhalten ablaufen, beschäftigt sich nun die Psycholinguistik.

Eine sehr anschauliche Darstellung der Bereiche, mit denen sich die Psycholinguistik

beschäftigt, gibt das folgende Diagramm1:

2

„sprechende Sprache Versprecher Sprachentwicklungs-

Menschenaffen“ der störungen u.

8-14 Jährigen -verzögerungen

Die Kreise stellen sozusagen zentrale Bereiche der psycholinguistischen Untersuchungen dar,

aber an den Überlappungen läßt sich erkennen, daß die einzelnen Aspekte keine in sich

abgeschlossenen Bereiche darstellen, sondern daß zwischen ihnen Übergänge bestehen.

Im folgenden nun eine kurze Zusammenfassung der einzelnen Bereiche und ihrer

Beziehungen zu einander:

Tierische Kommunikation: Viele Tiere besitzen ausgeklügelt Kommunikationssysteme, die

die verschiedensten Formen haben können. So verwenden Affen unterschiedliche Schreie, um

ihre Artgenossen vor verschiedenen Gefahren zu warnen. Oder die verschiedenen Tanzmuster

der Bienen, wenn sie den anderen Bienen im Stock die Lage der Futterquelle mitteilen wollen.

Andere Insekten wiederum kommunizieren mittels chemischer Botenstoffe.

Den Übergang von den tierischen Kommunikationsformen zum Hauptmittel der menschlichen

Kommunikation – der Sprache – bilden die

„Sprechende Menschenaffen“: Hier geht es um die Sprachexperimente, die mit

Menschenaffen durchgeführt wurden und werden. Dabei wurde versucht ihnen

1 S. Aitchison, J., 1976. The Articulate Mammal. An Introduction to Psycholinguistics. London. Die

3

Gebärdensprache beizubringen bzw. mit Hilfe von Symbolen auf einer Tastatur

(Lexigrammen) die Kommunikation zu entwickeln. (Genaueres s. entsprechenden Abschnitt!)

L1-Erwerb: In diesem Bereich geht es um den kindlichen Spracherwerb, wobei der

Erstsprache(n)erwerb den zentralen Untersuchungsbereich bildet. Den Übergangsbereich zur

Sprache der Erwachsenen bildet die

Sprache der 8-14 Jährigen: Da der L1-Erwerb mit dem Schuleintritt noch nicht

abgeschlossen ist, stellt auch die weitere Sprachentwicklung im Laufe der Schuljahre einen

Untersuchungsbereich dar. Ein zentrales Thema dabei bildet natürlich der Erwerb und die

Benutzung des Schriftsystems im Schreiben und Lesen.

Normale Erwachsenensprache: Untersuchungsbereiche stellen die Produktion und das

Verstehen von Sprache dar, d.h. es geht darum, welche Prozesse sowohl der

Sprachproduktion als auch der Perzeption und den Verständnis von Sprache zugrunde liegen.

Einen Übergangsbereich zu den Sprachstörungen bilden die sogenannten

Versprecher: Es geht um die Untersuchung der Ursachen und Prozesse, die dazu geführt

haben, daß jemand z.B. „Pestollazigymnasium“ (statt „Pestallozi-„) oder

„Unachtmerksamkeit“ (statt „Unachtsamkeit“) produziert.

Dysphasien: Die Sprach- und Sprechstörungen von Erwachsenen und die

Sprachentwicklungsverzögerungen und Sprachentwicklungsstörungen der Kinder bilden den

Untersuchungsbereich. Dabei stellen die Sprachstörungen (Aphasien), die nach Hirnläsionen

bei Erwachsenen auftreten, einen Untersuchungsschwerpunkt dar. Einen weiteren

Schwerpunkt bilden die kindlichen Sprachstörungen.

Die Psycholinguistik befaßt sich also mit den psychologischen Prozessen beim Produzieren,

beim Verstehen, beim Erwerb (L1/L2) von Sprache und bei der Störung der „normalen“

Sprachfunktionen, aber auch mit der Interaktion der Sprache mit anderen psychologischen

Systemen. (Hier einfügen: Neurolinguistik! ev. a. Kognitive Linguistik!)

ursprünglichen 4 Kreise wurden um die Ellipse (L2) erweitert.

4

Wie schon angedeutet, laufen die sprachlichen Prozesse normalerweise so automatisch ab, so

daß es für ihre Untersuchung notwendig ist, sehr genaue und sorgfältige Experimente

durchzuführen. Nicht zuletzt daher bestehen auch zwischen der Psycholinguistik und

Bereichen der Psychologie, wie etwa der Neuropsychologie oder der Kognitiven Psychologie,

enge Beziehungen. Auch in der Psycholinguistik werden Daten aus Experimenten und

Beobachtungen verwendet, um entsprechende Modelle über die Vorgänge bei der

Verwendung von Sprache zu erstellen.

An dieser Stelle sollte vielleicht auch einmal die Verwendung der verschiedenen Begriffe wie

„Daten“, „Theorie“, „Hypothese“ und „Modell“ kurz beschrieben werden. Die Daten ergeben

sich aus den Ergebnissen von Experimenten, von Fallstudien oder Gruppenstudien von

Personen mit Sprachstörungen und auch aus Beobachtungen darüber, wie Sprache

funktioniert. Diese Daten müssen dann „erklärt“, d.h. interpretiert werden. Daraus kann sich

eine Theorie entwickeln, d.h. eine allgemeine Erklärung darüber, wie etwas funktioniert. Ein

Modell dagegen ist spezifischer; so ist etwa der Versuch Sprachverarbeitung am PC zu

simulieren ein Modell für Prozesse, die aus allgemeineren Theorien abgeleitet werden. Eine

Hypothese ist eine spezifische Annahme, die überprüft werden kann. Wenn nun ein

entsprechendes Experiment die Hypothese bestätigt, so ergibt sich daraus eine Unterstützung

für die jeweilige Theorie aufgrund der die Hypothese formuliert wurde. Wird hingegen die

Hypothese nicht bestätigt, dann wird die Theorie zu modifizieren sein.

1.1 Historisches

Im allgemeinen wird der Beginn der Psycholinguistik auf eine Tagung in Cornell, USA, im

Sommer 1951 und der Verwendung des Wortes „psycholinguistics“ im Buch2 über diese

Konferenz zurückgeführt. Aber wir können sicher sein, daß dieser Zugang zur Untersuchung

der Sprache schon früher verwendet worden war. So finden wir in bereits im 19.Jhdt. eine

5

bemerkenswert „modern“ anmutende Untersuchung zu Versprechern3. Einen entscheidenden

Entwicklungsschub erhielt die Psycholinguistik rund um die Entwicklung der sogenannten

„generativen Transformationsgrammatik“ durch den amerikanischen Linguisten Noam

Chomsky4 und auch durch seine Besprechung des Buches „Verbal Behavior“ von B. F.

Skinner5.

Wie der Name „Psycholinguistik“ schon sagt, hat sie ihre Wurzeln den zwei Disziplinen

Psychologie und Linguistik; wobei in den frühen und mittleren 60ern vor allem der Versuch

die Verarbeitung von Sprache mit der generativen Transformationsgrammatik in Beziehung

zu bringen, im Mittelpunkt der Entwicklung stand.

Die dominierende Tradition in der Psychologie war zu dieser Zeit der Behaviorismus, der die

Beziehung zwischen „input“ (Stimulus) und „output“ (Response) hervorhob, und wie

Konditionierung und Verstärkung diese Beziehungen herstellen. Da also für die Behavioristen

der einzige Untersuchungsbereich der Psychologie das Verhalten war, und Sprache eben auch

Verhalten darstellt, sollte auch der Erwerb der Sprache und ihre Verwendung über

Konditionierung und Verstärkung erklärt werden. Die wohl konsequenteste Darstellung dazu

ist das o.e. Buch von Skinner.

Eine Veränderung dieser Sichtweise ergab sich nicht zuletzt auch aus der wohl mehr als

kritischen Besprechung von Skinners Buch durch Chomsky. Dabei handelt es sich um den

ungewöhnliche Fall, bei dem eine Buchbesprechung einflußreicher wurde als das Buch selbst.

Darin wies Chomsky darauf hin, daß der Behaviorismus nicht in der Lage ist, sich mit der

natürlichen Sprache in adäquater Weise auseinanderzusetzen. Er sprach sich dafür aus, daß

eine neue linguistische Theorie, die „Transformationsgrammatik“, sowohl die der Sprache

zugrundeliegenden Strukturen als auch das Wissen der Menschen um ihre Sprache erklären

2 Osgood,C.E./Sebeok,T.A. (eds.), 1954. Psycholinguistics: A survey of theory and research problems. (pp.93-101): Bloomington [Reprint 1965] 3 Meringer,R./Mayer,K., 1895. Versprechen und Verlesen: Eine Psychologisch-Linguistische Studie. Stuttgart 4 Chomsky,Noam, 1957. „Syntactic Structures“. The Hague; ders. 1959. Review of „Verbal Behavior“ by B.F. Skinner. Language 35: 26-58; ders. 1965. Aspects of the theory of syntax. Cambridge,MA.

6

könnte. In der Folge kam es geradezu zu einem „psycholinguistischen Boom“, im Laufe

dessen versucht wurde, die Konsequenzen aus diesen Überlegungen zu untersuchen. Zwar

waren die in diesem Rahmen durchgeführten Tests nur teilweise erfolgreich, aber es zeigte

sich, daß die Linguistik ihren Teil zum Wissen über Sprache, ihre Verarbeitung und auch zum

kindlichen Spracherwerb beitragen kann.

In den 70ern wurde die Psycholinguistik sehr stark in den „Mainstream“ der kognitiven

Psychologie integriert. Von großer Bedeutung war dabei die „Computermetapher“, deren

zentrale Annahme darin bestand (und besteht6), daß auch die sprachlichen Aufgaben und

Leistungen in entsprechenden (Fluß-)Diagrammen dargestellt werden können, wie andere

komplexe Aufgaben auch, bevor daraus ein entsprechendes Computerprogramm entsteht.

Solche informationsverarbeitende Ansätze der kognitiven Verarbeitung betrachten die

Kognition wie einen Computer (vgl. dazu Fn. 6)), in dem der „Input“, wie z.B. Sprache oder

auch Gesehenes, mit Hilfe bestimmter Regeln in eine symbolische Repräsentation „übersetzt“

wird, um danach – wieder nach bestimmten Regeln – weiter verarbeitet zu werden. Diese

Metapher hat sicherlich starken Einfluß auf die moderne Psycholinguistik ausgeübt, da die

meisten Modelle der Sprachverarbeitung nicht nur verschiedene Ebenen der Verarbeitung

annehmen, sondern auch entsprechende Regeln und Prozesse, die festlegen, was zwischen den

Ebenen passiert.

In den letzten 20 Jahren hat sich ein weiterer Ansatz entwickelt, der häufig als

„Konnektionismus“ bezeichnet wird. Dieser konnektionistische Ansatz (auch „parallel

distributed processing“ (PDP) oder „neuronale Netze“) wurde zu einem wichtigen Konzept in

den verschiedenen Bereichen der Psycholinguistik – so in der Verarbeitung von Sprache

ebenso wie im Erstsprach(en)erwerb. Diese konnektionistischen Netzwerke besitzen viele,

sehr einfache neuronen-ähnliche Einheiten („Knoten“), die vielfach miteinander verknüpft

5 Skinner,B.F., 1957. Verbal behavior. New York 6 Zur Rolle und Struktur der Computermetapher und anderen Systemmetaphern im Rahmen der Kognitionswissenschaft: Strohner,H., 1995. Kognitive Systeme. Opladen

7

sind. Das Lernen und schließlich das Verhalten eines Organismus – also auch das sprachliche

– entwickelt sich aufgrund der Interaktionen zwischen diesen einfachen Einheiten.7

Nicht nur in den konnektionistischen Modellen, sondern auch in vielen anderen, spielt der

Begriff der „Aktivierung“ eine große Rolle. Dabei handelt es sich um eine sich ständig

verändernde Größe bzw. Eigenschaft in der Beziehung zwischen verschiedenen Elementen.

Diese Aktivierung kann sich auch „ausbreiten“, und zwar von einem Punkt in einem

Netzwerk zu anderen – etwa so wie elektrischer Strom in den Schaltkreisen. Als Illustration

soll ein sprachliches Beispiel dienen: Wenn wir ein Wort wie „singen“ hören, so können –

vorausgesetzt es gibt ein zu diesem Wort gehörendes Element – andere Elemente, die mit dem

gehörten z.B. in einer Bedeutungsbeziehung stehen („Lied“), oder lautlich ähnlich sind

(„ringen“) ebenfalls ein gewisses – geringes – Maß an Aktivierung aufweisen. Dagegen wird

ein in keiner Beziehung stehendes Wort („Haus“) kaum eine Aktivierung aufweisen. Im

allgemeinen besteht Einigkeit darüber, daß unser Gehirn so etwas wie Aktivierung benützt,

und daß das Ausmaß der Aktivierung von bestimmten Elementen die Aktivierung von

ähnlichen Elementen beeinflußt.

2 Allgemeine biologische Grundlagen

Bevor wir näher auf die einzelnen Bereiche eingehen, wollen wir uns kurz und überblicksartig

mit den biologischen Grundlagen für die Sprache beschäftigen. Den zentralen Aspekt dieser

Darstellung bildet der neurospychologische und neurophysiologische Anteil an der Sprache

und weniger die Anatomie und Physiologie der Sprech- und Hörorgane. Diese

Schwerpunktsetzung erfolgt aber nicht deswegen, weil die Anatomie und Physiologie der

beim Sprechen und Hören beteiligten Organe eine untergeordnete Rolle in Hinblick auf die

biologischen Grundlagen der Sprache spielen, sondern weil dieser Bereich auch im Rahmen

7 Sehr gute Einführungen: Bechtel,W./Abrahamsen,A., 1991. Connectionismand the mind. Oxford; Quinlan,P.T., 1991. Connectionism and psychology. New York; Konnektionismus in de kognitiven Psychologie: Ellis,R./Humphreys,G.W., 1999. Connectionist psychology: A text with readings. Hove, UK.

8

der Phonetik ausführlich behandelt wird. Trotzdem soll zum besseren Verständnis des später

Folgenden an dieser Stelle ganz kurz ein Einblick der Anatomie und Funktion der Sprech-

und Hörorgane geboten werden.

2.1 Sprechorgane

Wie schon der Name sagt, sind die Sprechorgane jene Organe, die beim Sprechen, d.h. bei

Erzeugen von Lautsprache, mitwirken. Dies ist allerdings nicht ihre einzige Funktion, sondern

sie sind auch für so lebenswichtige Funktionen wie Atmung und Nahrungsaufnahme

zuständig.

Am Sprechen sind schematisch gesehen beteiligt: die Lunge, die Luftröhre (Trachea), der

Kehlkopf (Larynx) mit den Stimmlippen (Stimmbändern8), der Rachen (Pharynx) und

schließlich der Mundraum und der Nasenraum (Oralraum und Nasalraum). (s. Abb. 1)

Laute sind Schallwellen und daher benötigen sie eine Quelle, die sie mit der nötigen (Schall-)

Energie versorgt. Dies erfolgt durch die Lunge, die einen Luftstrom in Bewegung setzt. Die

Lunge liegt in einem Hohlraum im Oberkörper (Thoraxhöhle). Dieser Hohlraum wird vorne

und seitlich vom Brustbein und von den Rippen begrenzt, hinten vom Rückgrat und unten

vom Zwerchfell ( einer muskulöse Scheidewand zwischen Brust- und Bauchhöhle mit zwei

kuppelförmigen Auswölbungen in den Brustraum). Dieser so umgrenzte Bereich ist auch

unter der Bezeichnung Brustkorb bekannt. Die Atmung (Respiration), deren primäre

Aufgaben die Zufuhr des Sauerstoffs aus der Luft und der Abtransport des Abfallprodukts

Kohlendioxid ist, ist das Ergebnis der Bewegungen von Brustkorb und Zwerchfell.

Bevor wir zu sprechen beginnen, müssen wir einatmen. Dies erfolgt aufgrund von neuronalen

Signalen aus dem Atemzentrum im Stammhirn, die bewirken, daß sich die Muskulatur des

Brustkorbs zusammenzieht. Dabei sorgen vor allem die Zwischenrippenmuskel

(Interkostalmuskel) dafür, daß sich die Rippen nach oben und außen bewegen, und das

9

Zwerchfell zieht sich zusammen, was eine Abflachung der Wölbungen bewirkt. Durch diese

Vergrößerung des Brustraums erfolgt eine Dehnung der Lungen und die Luft kann durch die

Luftröhre einströmen (Einatmung). Das Ausatmen erfolgt nun passiv, indem das Zwerchfell

bzw. die Rippenmuskulatur erschlafft.

Bei der Atmung können wir zwischen einer Ruheatmung und einer Sprechatmung9

unterscheiden:

Wird weder gesprochen noch gesungen (Ruheatmung), ist das Einatmen ein Vorgang, der

durch beteiligte Muskulatur (s.o.) den Brustkorb vergrößert und damit die Lunge erweitert,

und das Einströmen der Luft ermöglicht. Die Ausatmung erfolgt passiv, da durch das

Erschlaffen der Muskel die Lunge wieder ihren Ruhezustand einnimmt. Dabei sind die Phasen

des Aus- und Einatmens in etwa gleich lang.

Das Atmen beim Sprechen unterscheidet sich deutlich von jenem in Ruhe, denn die Phase des

Ausatmens ist gegenüber jener des Einatmens deutlich verlängert, da für das Sprechen ein

entsprechend langes Ausatmen notwendig ist. Dies erfolgt durch stärkeres Einatmen, einem

aktiven Ausatmen (d.h. die schon beim Einatmen aktiven Muskeln sorgen dafür, daß der

Brustraum nur langsam wieder in die Ausgangslage zurückkehrt) und es wird nicht nur soweit

ausgeatmet wie bei der Ruheatmung, wo ca. 1 Liter Luft in der Lunge verbleibt, sondern der

Brustraum wird noch weiter verengt.

Den wichtigsten Teil für die Erzeugung von Sprachlauten stellt der Vokaltrakt dar.

(Entsprechend einer Analogie zu Musikinstrumenten wird er auch als Ansatzrohr bezeichnet.)

Der Vokaltrakt (das Ansatzrohr) beginnt mit der Stimmritze (Glottis, die Öffnung zwischen

8 Stimmbänder ist eigentlich eine nicht ganz exakte Bezeichnung für alle schwingenden Strukturen (= Stimmlippen), die allerdings häufig verwendet wird. 9 Genau genommen Sprech- und Singatmung, weil die Veränderungen nicht nur für das Sprechen, sondern besonders für das Singen kennzeichnend sind.

10

den Stimmlippen) und besteht weiters aus dem Rachen10 und dem Mund- und Nasenraum. (s.

Abb. 2: Sprechwerkzeuge)

Wenn wir nun sprechen, so wird die aus der Lunge kommende Luft (pulmonale Luft) durch

die im Vokaltrakt vorhandenen Organe in Schwingungen versetzt. Die wichtigste

Schwingungsquelle für die Sprachlaute stellt der Kehlkopf mit den Stimmlippen dar.

Aufgrund von komplexen Wechselwirkungen zwischen den Kehlkopfmuskeln können die

Stimmbänder ihre Länge, Breite, Höhe, Spannung, Elastizität und Dicke verändern, wobei

diese Veränderungen beim Sprechen mit hoher Geschwindigkeit erfolgen. Diese

Veränderungen haben auch Auswirkungen auf das akustische Aussehen der jeweiligen Laute.

Der wohl wichtigste Aspekt besteht in der Erzeugung von hörbaren Schwingungen. So

entsteht ein summender Laut – ein stimmhafter Laut – wenn die Stimmritze einen engen Spalt

bildet und die Stimmlippen dabei schwingen. Diesen Zustand finden wir bei allen Vokalen

und bei (stimmhaften) Konsonanten (z.B.. [b], [z], [m]). (Diese Schwingungen lassen sich

sogar spüren, indem man den Daumen und Zeigefinger an die beiden Seiten des Kehlkopfes

legt und abwechselnd (stimmhaft) [zzzzzz] bzw. (stimmlos) [ssssss] produziert.)

Die Frequenz der Schwingungen der Stimmlippen können innerhalb von Grenzen verändert

werden, was zu Veränderungen der Tonhöhe und der Lautstärke führt. Diese Fähigkeit

spiegelt sich in der Sprache etwa im Bereich der Betonung und Intonation wider.

Die Stimmritze läßt sich auch verschließen (z.B. beim Anhalten der Luft). Wenn nun dieser

Verschluß geöffnet („gesprengt“) wird, ergibt das den sogenannten glottalen Verschlußlaut

[]. Diesen Laut kann man am Beginn von Husten hören, oder z.B. im Deutschen vor

10 Genauer können wir beim Rachen verschiedene Teile unterscheiden: der Kehlrachen ( Laryngopharynx, von der Speiseröhre bis zum Kehldeckel (Epiglottis)), der Mundrachen ( Oropharynx, von der Zungenwurzel bis zu den Gaumenbögen – nach vorne schließt daran die Mundhöhle an) und der Nasenrachen ( Nasopharynx, im Anschluß an den Mundrachen mit dem Rachendeckel als obere Begrenzung. Hier beginnen links und rechts die Eustachischen Röhren, die eine Verbindung zum Mittelohr bilden.)

11

Vokalen im Wort- oder Morphemanlaut, oder im Englischen, im speziellen im Cockney11, tritt

z.B. der glottale Plosiv zwischen Vokalen anstatt von [t] auf, wie in <butter> oder <water>.

Einen weiteren Aspekt der Vielseitigkeit der Stimmlippen zeigt sich etwa beim Flüstern.

Wenn wir flüstern, dann bleibt der hintere Teil der Stimmritze dreieckförmig offen – das

sogenannte Flüsterdreieck – , wobei die Stimmritze aussieht wie ein verkehrtes Y.

Nachdem der pulmonale Luftstrom den Kehlkopf passiert hat, strömt er durch das

röhrenförmige Gebilde des Rachen- und Mundraums (gelegentlich auch durch den

Nasalraum). In diesem Bereich wird nun der Luftstrom von verschiedenen beweglichen

Sprechwerkzeugen beeinflußt – es kommt zur Artikulation. Als Artikulation bezeichnet man

die Erzeugung von Sprachlauten aufgrund der Veränderung des Luftstroms im Ansatzrohr.

Bei dieser Modifikation spielen vor allem die beweglichen Sprechwerkzeuge, wie die Zunge,

die Lippen oder der weiche Gaumen eine große Rolle. Weiters werden die im Ansatzrohr

gebildeten Laute auch von den Eigenschaften der „Röhren“, durch die der Luftstrom

hindurchgeht, beeinflußt. Diese röhrenförmigen Gebilde sorgen für die Resonanz der Laute,

wobei diese Resonanz auch veränderlich ist, da das Ansatzrohr verschiedene Formen

annehmen kann.

Bei der Beschreibung der Artikulation wird meist zwischen beweglichen und (relativ)

unbeweglichen Teilen des Vokaltrakts unterschieden. D.h. die beweglichen, „aktiven“

artikulierenden Organe (Artikulatoren) sind vom Sprecher steuerbar, was für die „passiven

Artikulatoren“ nicht gilt. Zu diesen gehören:

a) die oberen Schneidezähne;

b) der Zahndamm (Zahnalveolen, Alveoli dentales) – der Knochendamm hinter den oberen

Schneidezähnen;

c) der harte Gaumen (Palatum durum) – die knöcherne Wölbung hinter dem Zahndamm.

11 Eine dialektale Variante des Englischen in London.

12

Zu den übrigen mehr oder weniger beweglichen Sprechwerkzeugen zählen (von vorne nach

hinten):

a) der Unterkiefer (Mandibula): Er ist sehr beweglich, d.h. er kann gehoben oder gesenkt

werden, aber auch nach vorne oder hinten verschoben werden;

b) die Lippen (Labia – Labium, sg.): Sie bestehen aus Muskeln, die eine Reihe von

Bewegungen erlauben, die vor allem für die Mimik wichtig sind. Für die Lautproduktion

können sie geschlossen (aufeinander gepreßt) sein (z.B. [p], [m]), oder in verschiedenem

Ausmaß geöffnet sein, z.B. gerundet (die Lippen bilden einen Kreis) (z.B. [u]), oder

auseinandergezogen (z.B. [i]), oder die durch die geöffneten Lippen ausströmende Luft

kann auch ein Reibegeräusch erzeugen;

c) die Zunge (Lingua): Unter den beweglichen Sprechorganen ist die Zunge jenes, das die

meisten Bewegungen und Formveränderungen durchführen kann, was dazu führt, daß sie

bei der Bildung einer Vielzahl von Sprachlauten mitwirkt. Dabei ist auch zu beachten, daß

bei den Bewegungen nicht unbedingt die ganze Zunge beteiligt ist, sondern nur Teile wie

beim Heben oder Senken der Zungenspitze, des Zungenrückens, oder der Zungenränder;

weiters kann die Zungenspitze bis zum oberen Abschluß des Mundraumes zurück

gebogen werden oder der ganze Zungenkörper kann vorgeschoben oder zurückgezogen

werden. Was die Formveränderungen betrifft, so können wir eine Verlängerung oder

Verkürzung, die Bildung von Rillen, Vertiefungen oder Erhöhungen beobachten.

d) der weiche Gaumen (Gaumensegel, Velum palatinum): Dabei handelt es sich um eine

Muskelplatte, die hinten vom harten Gaumen segelförmig herabhängt. Sein auffälligstes

Merkmal ist herabhängende Zäpfchen (Uvula), was sich leicht erkennen läßt, wenn man

die Mundhöhle im Spiegel ansieht. Das Velum kann gehoben oder gesenkt werden, d.h.

wenn es gehoben ist, wird der Nasenraum verschlossen und die Luft kann durch den

Mundraum ein- oder austreten; ist das Velum gesenkt, so kann die Luft durch den

13

Nasenraum ein- bzw. austreten (diese entspricht der Ruheatmung bei geschlossenem

Mund).

Für die Produktion von Sprachlauten bedeutet das, daß bei gehobenem Velum die Luft

durch den Mund austritt, wodurch Orallaute erzeugt werden (die meisten Vokale und

Konsonanten des Deutschen); das Velum gesenkt ist und der Mund geöffnet ist, wodurch

die Luft durch Mund und Nase entweichen kann, was zur Bildung von nasalierten Lauten

führt (vgl. Vokale im Französischen, z.B. in „bon“); und schließlich kann das Velum

gesenkt sein und der Mund ist geschlossen, was bedeutet, daß die ganze Luft durch die

Nase entweicht, was zu Produktion von nasalen Konsonanten führt (z.B. [m] oder [n]).

e) der Rachen (Pharynx): Dabei handelt es sich um eine muskulöse Röhre, deren Größe durch

die Bewegungen der Zunge, des Kehlkopfes und der Rachenmuskulatur verändert werden

kann. Zwar dient der Pharynx primär als Resonanzraum, aber eine Verengung kann auch

bei der Produktion von einigen Konsonanten eine Rolle spielen (z.B. im Arabischen: []).

Damit hätten wir den kurzen Überblick über die Sprechorgane abgeschlossen. Was noch

bleibt, ist ein Hinweis auf die Beziehung zwischen der artikulatorischen Beschreibung von

Lauten und den besprochenen Artikulationsorganen.

Wie bereits erwähnt werden die beweglichen Teile des Vokaltrakts als Artikulationsorgane

bezeichnet und die eher unbeweglichen Teile als Artikulationsstellen. Durch die Bewegungen

der Artikulationsorgane in bezug auf die Artikulationsstellen wird die Struktur des

Ansatzrohres verändert, was zur Bildung von unterschiedlichen Lauten führt. Dazu kommt

noch, daß der Luftstrom durch die von den Artikulationsorganen aufgebauten „Hindernisse“

unterbrochen bzw. modifiziert werden kann, was in den verschiedenen Artikulationsarten

(Artikulationsmodi) resultiert.

Im folgenden sollen einige Beispiele dies erläutern:

a) Artikulationsstelle: Oberlippe, Artikulationsorgan: Unterlippe (durch Bewegung des

Unterkiefers), Bezeichnung: bilabial (weitere Angaben für eine artikulatorische

14

Beschreibung wären: Artikulationmodus: z.B.: plosiv und Stimmtonbeteiligung: z.B.:

stimmlos – dies wäre der Laut [p] in „Pute“)

b) Artikulationsstelle: obere Schneidezähne, Artikulationsorgan: Unterlippe, Bezeichnung:

labiodental (weitere Angaben: Artikulationsmodus: z.B.: frikativ und

Stimmtonbeteiligung: stimmhaft – dies wäre der Laut [v] in „Wein“)

c) Artikulationsstelle: weicher Gaumen, Artikulationsorgan: Zunge (genauer: Zungenrücken),

Bezeichnung: velar (weitere Angaben: Artikulationsmodus: z.B.: plosiv und

Stimmtonbeteiligung: stimmlos – diese wäre der Laut [k] in „Kuchen“).

Aus diesen Beispielen läßt sich erkennen, daß für die nähere artikulatorische Bestimmung der

Konsonanten, dabei handelt es sich um Laute, bei deren Produktion im Ansatzrohr

vollständige bzw. unvollständige Verschlüsse oder Engen auftreten, offensichtlich vier

Kriterien entscheidend sind: die Artikulationsstelle, das Artikulationsorgan, der

Artikulationmodus und die Stimmtonbeteiligung12.

Der Vollständigkeit halber soll auch noch ganz kurz auf die artikulatorische Beschreibung der

Vokale eingegangen werden. Im Gegensatz zu den Konsonanten werden diese Laute mit

einem offenen Ansatzrohr produziert. Für ihre nähere artikulatorische Bestimmung werden

verwendet: die Artikulationsstelle, die Zungenhöhe und die Lippenstellung.

Als Artikulationsstelle wird jener Teil des Gaumens bezeichnet, der dem höchsten

horizontalen Punkt der Zunge gegenüber liegt. Daraus ergibt sich folgende Einteilung:

vordere (palatale) Vokale, mittlere (zentrale) Vokale und hintere (velare) Vokale – Vorder-,

Mittel(Zentral)- und Hinterzungenvokale.

Der Begriff Zungenhöhe bezieht sich auf den vertikalen Abstand des höchsten Punktes der

Zunge vom Gaumen. Das ergibt folgende Einteilung: hohe (geschlossene), mittlere und tiefe

(offene) Vokale – auch als Hochzungen-, Mittelzungen- und Tiefzungenvokale bezeichnet.

12 Wie aus dem Beispiel b) ersichtlich, wird bei zusammengesetzten Bezeichnungen die Bezeichnung für das artikulierende Organ vor jene für die Artikulationsstelle gesetzt: labio-dental. Weiters ist anzumerken, daß bei

15

Nach der Lippenstellung kann man entsprechend der Form der Lippen zwischen gerundeten

und ungerundeten Vokalen unterscheiden.

Einige Beispiele dazu:

a) [i]: ungerundeter palataler Hochzungenvokal,

b) []: gerundeter velarer Mittelzungenvokal.

Damit wollen wir diesen kurzen Abriß zu den Sprechorganen und ihren Funktionen

abschließen, wobei darauf hingewiesen werden muß, daß es sich hier nur grundsätzliche

Hinweise auf die Aufgaben dieser Organe bei der Sprachproduktion handelt. Eine

ausführliche und detaillierte Beschreibung der Sprachlaute und ihrer Produktion bietet die

artikulatorische Phonetik.

2.2 Hörorgane

Nach diesem kurzen Abriß über die Anatomie und Funktionen der Sprechorgane wollen wir

uns nun der rezeptiven Seite zuwenden. Der erste Schritt in der Perzeption der Laute erfolgt,

wenn die Schallwellen das Ohr erreichen. Von hier werden die in Nervenimpulse

„übersetzten“ Schallereignisse über den Hörnerv in das Gehirn weitergeleitet, wo die

eingehenden neuronalen Reize ausgewertet und weiterverarbeitet werden. (Zu den für die

Sprachrezeption und –produktion wichtigen Teile des Gehirns s. das folgende Kapitel.)

Das Ohr (s. Abb. 3: Gehör) wird in drei Abschnitte gegliedert: das Außenohr, das Mittelohr

und das Innenohr.

Das Außenohr besteht aus der Ohrmuschel (Auricula) und dem äußeren Gehörgang (Meatus

acusticus externus). Bezüglich der Schallrezeption ist die Ohrmuschel nur von

untergeordneter Bedeutung. Zwar hilft sie bei der Lokalisierung von Schallquellen, aber

ansonsten leitet sie nur die Schallwellen in das Ohr. Wichtiger ist dagegen der äußere

Gehörgang, der in der Ohrmuschel beginnt und zum Trommelfell führt. Dieser ca. 2,5 cm

der artikulatorischen Beschreibung von Lauten im allgemeinen die Angabe des Artikulationsorgans entfällt, z.B.

16

lange Gang enthält Haare und Drüsen, die Talg absondern, der zusammen mit anderen

Partikeln das Ohrenschmalz (Zerumen) bildet. Das Ohrenschmalz dient als Filter, um zu

verhindern, daß Staub oder andere kleine Fremdkörper bis zum Trommelfell gelangen. Der

äußere Gehörgang verstärkt den Schall bestimmter Frequenzen (zwischen 2000 und 3000 Hz),

was zu einer Verbesserung der Wahrnehmung von schwachen Lauten in diesem

Frequenzbereich führt.

Das Trommelfell (Membrana tympani) trennt das Außenohr vom Mittelohr. Es handelt sich

dabei um eine häutige Membran, die den äußeren Gehörgang schräg abschließt (oben 6 mm

weiter außen als unten). Das Trommelfell ist keine ebene Fläche, sondern geht trichterförmig

nach innen, wobei der sogenannte Nabel (Umbo) am weitesten innen liegt. Ein Teil des ersten

Gehörknöchelchens (der Griff des Hammers) liegt dicht am Trommelfell an. Auf diese Weise

werden die Schwingungen des Trommelfells auf die Gehörknöchelchen übertragen.

Das Mittelohr liegt hinter dem Trommelfell, wobei die Kammer des Mittelohrs als

Paukenhöhle bezeichnet wird. Dabei handelt es sich um eine ca. 15 mm hohe mit Luft gefüllt

Kammer, die über die sogenannte Eustachische Röhre mit dem Nasenrachenraum verbunden

ist. (Dies gilt natürlich für jedes Ohr.) Die Hauptaufgabe des Mittelohrs besteht in der

Umsetzung des am Trommelfell ankommenden Schalls in mechanische Schwingungen, die

weiter in das mit Flüssigkeit gefüllt Innenohr übertragen werden. Diese Übertragung erfolgt

durch drei winzige Knochen – den Gehörknöchelchen. (Sie sind als einzige Knochen des

Skeletts bereits bei der Geburt vollständig ausgebildet.) Die Gehörknöchelchen sind an

Bändern in der Paukenhöhle befestigt und miteinander gelenkig verbunden, wodurch die

Schwingungen gut von einem zum anderen übertragen werden können. Die Bezeichnungen

der Gehörknöchelchen ergeben sich aus ihrer charakteristischen Gestalt: Hammer (Malleus),

Amboß (Incus) und Steigbügel (Stapes). An den Hammer, der mit dem Trommelfell

verbunden ist, schließt sich der Amboß an und daran wieder der Steigbügel. Dieser wiederum

stimmhafter bilabialer Plosiv: [b] oder stimmloser labiodentaler Frikativ: [] (in „think“).

17

liegt auf dem ovalen Fenster auf, das eine Öffnung in der Knochenwand zwischen Mittelohr

und Innenohr bildet.

Zwar erscheint diese Art der Übertragung von Schwingungen recht kompliziert, doch ergeben

sich daraus einige wichtige Vorteile: Zum einen werden die Schwingungen bis zum Innenohr

deutlich verstärkt – um einen Faktor von 30 dB –, denn ohne diese Verstärkung würden sie in

der Flüssigkeit des Innenohrs schnell verebben. Zum anderen bildet das Knochensystem des

Mittelohrs einen Schutz für das Innenohr vor extrem lauten Geräuschen und die Muskeln, die

für die Bewegungen des Trommelfells und des Steigbügels zuständig sind, können reflexartig

so reagieren, daß das Risiko von Verletzungen des Innenohrs durch extreme Schwingungen

verringert wird. (Bei manchen lauten Geräuschen kann die Reaktionszeit der Muskeln jedoch

zu lang sein, so daß es doch zu Verletzungen kommen kann.)

Das Innenohr (s. Abb. 4) liegt im Schläfenbein13 und besteht aus einem komplizierten System

von Gängen und Windungen, die als häutiges Labyrinth bezeichnet werden. Dieses liegt in

einem Hohlraum des Knochens, der in etwa die Form des häutigen Labyrinths widerspiegelt,

und daher auch als knöchernes Labyrinth bezeichnet wird. Das knöcherne Labyrinth enthält

eine klare Flüssigkeit, die Perilymphe, in der das häutige Labyrinth schwimmt. Das häutige

Labyrinth umfaßt die Bogengänge, den Utriculus (AB7), den Sacculus (AB6) und die

Schnecke. Sacculus und Utriculus sowie die von ihm abgehenden Bogengänge bilden das

Gleichgewichtsorgan. Wir wollen uns nun jenen Teilen des Innenohrs zuwenden, die für die

Übertragung der (ursprünglichen) Schallschwingungen wichtig sind, denn hier werden die –

inzwischen – mechanischen Schwingungen in neuronale Impulse umgewandelt. Das vom

Steigbügel verschlossene Vorhoffenster (ovales Fenster, AC2) führt zum Vorhof (Vestibulum

AC3), dem Mittelteil des knöchernen Labyrinths. Das Vestibulum geht in die knöcherne

Schnecke (Cochlea) über, die einen gewundenen Hohlraum von ca. 35mm Länge bildet, der

einem Schneckenhaus ähnlich sieht. Die Schnecke (s. Abb. 5) ist über ihren gesamten Bereich

13 Genauer im Felsenbein (Pars petrosa).

18

in eine obere und eine untere Kammer geteilt, die Vorhoftreppe (Scala vestibuli) bzw.

Paukentreppe (Scala tympani), die mit einer klaren, zähen Flüssigkeit, der Perilymphe, gefüllt

sind. Der Schneckengang (Ductus cochlearis), der Endolymphe enthält, trennt die beiden

Kammern, wobei die untere Wand des Schneckengangs von der Basilarmembran (Lamina

basilaris) und die obere von der Reissnerschen Membran gebildet wird. Die Schwingungen

werden nun über das Vorhoffenster auf die Flüssigkeit der Vorhoftreppe übertragen und sie

durchwandern nun die ganze Schnecke bis zur Schneckenspitze, wo sie aufgrund einer

Öffnung im Schneckengang von der Vorhoftreppe in die Paukentreppe gelangen, und sie

enden schließlich am runden Fenster (Fenestra cochleae), das die Paukentreppe gegenüber

dem Mittelohr abschließt. Die Basilarmembran kann aufgrund ihrer unterschiedlichen Breite –

am schmalsten am Fuß der Schnecke und zunehmend breiter zur Schneckenspitze hin –

entsprechend unterschiedlich auf die eintreffenden Druckwellen reagieren. So wirken sich

hohe Frequenzen vor allem auf das schmale Ende aus, wogegen tiefere Frequenzen das

breitere Ende betreffen.

Die Lamina basilaris trägt auch das Cortische Organ, den eigentlichen rezeptorischen

Apparat. Dieses Organ wandelt nun die mechanischen Bewegungen in neuronale Impulse um.

Das Cortische Organ enthält Stütz- und Sinneszellen, wobei die Sinneszellen aus den inneren

und äußeren Haarzellen bestehen. An der Basis der Haarzellen enden Nervenfasern mit

synaptischen Kontakten. Durch die elektrochemischen Umwandlungen werden so die Fasern

des Hörnervs (VIII. Hirnnerv, N. vestibulocochlearis) erregt und die Signale werden weiter

zum Schläfenlappen (Lobus temporalis) im Gehirn geleitet, wo die nun die weitere

Verarbeitung der ankommenden akustischen Signale erfolgt.

Damit haben wir den kurzen Überblick über den Aufbau und die Funktionen der Sprech- und

Hörorgane beendet. Der nächste Abschnitt bietet eine kurze Darstellung der für die Sprache

wichtigsten Teile des Gehirns.

19

2.3 Gehirn

Das Gehirn bildet zusammen mit dem Rückenmark das zentrale Nervensystem (ZNS). Das

periphere Nervensystem besteht aus den Hirnnerven und den Spinalnerven.

Das Gehirn ist jener Teil des ZNS, das im knöchernen Teil des Schädels liegt. Es bildet die

größte und komplexeste Masse an neuronalem Gewebe im ganzen Körper und wiegt im

Durchschnitt 1,4 kg. Umgeben wird das Gehirn von drei faserartigen Membranen, den

Meningen (Hirnhäuten): harte Hirnhaut (Pachimenix, dura mater), Leptomenix (weiche

Hirnhaut), die aus Arachnoidea und Pia mater (gefäßführender Teil der weichen Hirnhaut)

besteht. Sie umschließen einen mit Flüssigkeit gefüllten Raum; diese Flüssigkeit ist die sog.

Cerebrospinalflüssigkeitt (Liquor cerebrospinalis). Innerhalb des Gehirns gibt es eine Reihe

von mit Flüssigkeit gefüllte Räume, die sog. Ventrikel.

Die peripheren Nerven treten durch Löcher, Foramina, in der Schädelbasis (Hirnnerven) nach

außen und ziehen zu den Muskeln und Hautbezirken. (Die Spinalnerven treten zwischen den

Wirbelbögen nach außen.)

Wenn man das Gehirn von der Seite betrachtet (s. Abb. 6), kann man folgende Teile

unterscheiden: das Großhirn (Cerebrum), das Kleinhirn (Cerebellum) und den Hirnstamm

(Truncus encephali a. cerebri). An den Hirnstamm schließt sich das Rückenmark (Medulla

spinalis) an.

Im Gehirn sind auch alle Bereiche lokalisiert, die die sensorischen und motorischen

Aktivitäten – und somit auch die sprachlichen – steuern und weiters auch noch die Bereiche

für Rationalität, Gedächtnis und Intelligenz.

Zur leichteren Orientierung gibt es Lagebezeichnungen, mit deren Hilfe die einzelnen

Hirnstrukturen näher beschrieben werden können. Dabei werden folgende Ausdrücke

verwendet (vgl. Abb. 6): das Vorderende der Achse wird als oral oder rostral bezeichnet, das

Hinterende als kaudal, die Unterseite als ventral (a. basal) und die Oberseite als dorsal.

20

Bevor wir auf die einzelnen Teile des Gehirns zu sprechen kommen, wollen wir uns noch eine

differenziertere Gliederung des Gehirns ansehen:

Encephalon (Gehirn): Prosencephalon (Vorderhirn) und Truncus encephali (Hirnstamm)

Prosencephalon: Telencephalon (Endhirn) und Diencephalon (Zwischenhirn)

Truncus encephali: Mesencephalon (Mittelhirn) und Rhombencephalon (Rautenhirn)

Rhombencephalon: Metencephalon (Hinterhirn) und Myelencephalon (Markhirn) [a. Medulla

oblongata]

Metencephalon: Pons (Brücke) und Cerebellum (Kleinhirn)

Im folgenden werden die einzelnen Teile kurz besprochen und auch auf einige lokalisierten

Funktionen hingewiesen.

21

2.3.1 Prosencephalon

Das Vorderhirn besteht – wie wir gesehen haben – aus dem Zwischenhirn (Diencephalon)

und dem Endhirn (Telencephalon). Beim reifen Gehirn bildet das Telencephalon die beiden

Hemisphären (Großhirnhemisphären) und zwischen den beiden Hemisphären liegt das

Zwischenhirn.

Die Oberfläche des Gehirns ist stark gefaltet, wobei die Furchen (Sulci, Sulcus) und die

Windungen (Gyri, Gyrus) bezeichnet werden. Besonders tiefe Einschnitte werden auch als

Fissurae (Fissura) bezeichnet.

Im folgenden (s. Abb. 6) nun ein kurzer Überblick über Teile des Gehirns: Die Hemisphären

sind durch eine tiefe Furche, Fissura longitudinalis cerebri, getrennt und an den Seitenflächen

läßt sich der Sulcus lateralis (Sylvii) erkennen.

Die Oberfläche der Hemisphären umhüllt das Zwischenhirn und den oberen Teil des

Hirnstammes wie ein Mantel, was dazu führt, daß sie auch als Mantel (Pallium) bezeichnet

wird.

Wenden wir uns nun den Hemisphären zu (Beispiel: linke Hemi. von außen): Die Hemisphäre

wird in vier Hirnlappen (Lobi cerebri) gegliedert: Stirnlappen (Lobus frontalis),

Scheitellappen (Lobus parietalis), Schläfenlappen (Lobus temporalis) und

Hinterhauptslappen (Lobus occipitalis).

Wie bereits erwähnt, besteht die Hemisphärenoberfläche aus Sulci und Gyri, wobei

unterschieden werden kann zwischen Primär-, Sekundär- und Tertiärfurchen. Die zuerst

auftretenden Primärfurchen sind bei allen Gehirnen gleich ausgebildet (Sulcus centralis,

Sulcus calcarinus (B39)). Die Sekundärfurchen variieren, und die zuletzt auftretenden

Tertiärfurchen verlaufen regellos und sind in jedem Gehirn verschieden. Somit hat jedes

Gehirn sein eigenes Oberflächenrelief, das einen Ausdruck der Individualität darstellt.

Wenden wir uns nun wieder der Abb. 6 zu:

22

Der Frontallappen reicht vom Frontalpol (A1) bis zum Sulcus centralis (A2); dieser begrenzt

zusammen mit dem Sulcus praecentralis (A3) den Gyrus praecentralis (A4). Zusammen mit

dem Gyrus postcentralis bildet der G. praecentralis die sog. Zentralregion; sie beinhaltet auch

jenseits der Mantelkante (AB 6) den Gyrus paracentralis (B7).

Weiters enthält der Frontallappen drei große Windungszüge: den Gyrus frontalis superior

(A8), den Gyrus frontalis medius (A9) und den Gyrus frontalis inferior (A10); getrennt

werden diese durch den Sulcus frontalis superior (A11) und dem Sulcus frontalis inferior

(A12). Am Gyrus frontalis inferior lassen sich drei Teile unterscheiden, die den Sulcus

lateralis begrenzen: die Pars opercularis (A14), Pars triangularis (A15) und Pars orbitalis

(A16).

Der Parietallappen hat hinter dem Sulcus postcentralis (A17) den Lobulus parietalis superior

(A18) und auch inferior (A19); diese beiden werden vom Sulcus interparietalis (A20)

getrennt.

Um das Ende der Fissura lateralis herum liegt der Gyrus supramarginalis (A21) und ventral

dazu der Gyrus angularis (A22).

Der Temporallappen hat wiederum drei deutlich erkennbare Windungszüge: Gyrus temporalis

superior (A25), Gyrus temporalis medius (A26) und Gyrus temporalis inferior (A27). Diese

Gyri werden nun durch den Sulcus temporalis superior (A28) und den Sulcus temporalis

inferior (A29) getrennt.

Wenn wir uns dazu kurz den Medianschnitt (B) ansehen, so können wir den Gyrus

parahippocampalis (B30) erkennen, der „oral“ in den Uncus (B31) und „kaudal“ in den

Gyrus lingualis (B32) übergeht. Dazu einige weitere Angaben: Gyrus temporalis lateralis

(B35); Sulcus occipitotemporalis (B36).

Im Okzipitallappen (Okzipitalpol: AB37) finden wir den Sulcus occipitalis transversus (A38),

den tiefen Sulcus calcarinus (B39). Der Sulcus calcarinus begrenzt zusammen mit dem Sulcus

parieto-occipitalis (B40) den Cuneus (B41).

23

Der Gyrus cinguli (B42) zieht um den Balken (B43) herum, wobei er „kaudal“ durch den

Sulcus hippocampi (B44) vom Gyrus dentatus (B45) getrennt ist; „oral“ gesehen, läuft er

(G.cinguli) im Gyrus paraterminalis (B46) in der Area subcallosa (Area perolfactoria) (B47)

aus.

(Der Vollständigkeit halber: B48 = Isthmus gyri cinguli.)

Es sei noch einmal darauf hingewiesen, daß durch die Ausbildung von Furchen und

Windungen die Ausdehnung der Hirnrinde sehr stark vergrößert wird, so daß man davon

ausgehen kann, daß etwa 2/3 der gesamten Oberfläche in der Tiefe des Cortex14 liegen.

(An dieser Stelle soll nicht auf Spekulationen bezüglich der Anzahl von Neuronen im

cerebralen Cortex eingegangen (15 Milliarden++?) werden - man bedenke die Messweise.)

Interessant ist allerdings, daß alle Gebiete des Neocortex eine gleichartige Entwicklung

durchmachen (d.h. an der Oberfläche der Hemisphäre bildet sich zuerst eine breite Zellschicht

(die Rindenplatte), die sich danach in sechs Schichten aufspaltet). (Aufgrund dieser

gleichartigen Entwicklung wird der Neocortex auch als isogenetischer Cortex bezeichnet

(=Isocortex).), aber trotzdem weist der Neocortex in verschiedenen Regionen deutliche

Variationen auf, so daß man eine Anzahl von unterschiedlich gebauten Bereichen

(Rindenfeldern) unterscheiden kann. Dabei können in diesen Rindenfeldern die einzelnen

Schichten äußerst verschieden beschaffen sein: breit od. schmal, dichte Zellkombinationen

oder eher lockere; auch die Zellen können verschieden groß sein oder es kann ein bestimmter

Typ von Zellen vorherrschen.

Diese Felder lassen sich auch abgrenzen, was als Zytoarchitektonik bezeichnet wird. Dadurch

läßt sich auf der Oberfläche einer Hemisphäre (- ähnlich einer Landkarte) eine Karte der

Rindenfelder erstellen. Die von Korbinian Brodmann am Beginn des vorigen Jahrhunderts

entworfene Karte der Rindenfelder wurde vielfach bestätigt und ist allgemein anerkannt.

14 Die graue aus Nervenzellen bestehende Substanz, die an der Oberfläche von Großhirn und Kleinhirn liegt, wird als Cortex bezeichnet: C. cerebri (Substantia corticalis cerebri: besteht meist aus sechs Zellschichten - Großhirnrinde), C. cerebelli (Substantia corticalis cerebelli: ca. 1mm dick – Kleinhirnrinde)

24

Abb. 7 zeigt die von Brodmann entworfene Karte, wobei anzumerken ist, dass diese Karte der

Rindenfelder vielfach bestätigt worden ist. Bei der Erstellung seiner Karte versuchte

Brodmann die Strukturen und die Funktionen im cerebralen Cortex zu korrelieren. Das

Ergebnis war, daß der Cortex unterteilt werden kann in motorische Areale, sensorische Areale

und Assoziationsareale. Die motorischen Areale steuern die willkürliche Muskelaktivitäten,

dagegen befassen sich die sensorischen Areale mit der Aufnahme von sensorischen Impulsen

(z.B. Sehen und Hören). Es lassen sich in jeder Hemisphäre drei primäre sensorische Areale

unterscheiden - eines für Sehen, eines für Hören und eines für allgemeine Sinne (z.B.

Tastsinn). Der sog. Assoziationscortex (assoziativer Cortex) umfaßt ca. 75% des cerebralen

Cortex. Diese Bereiche erhalten vielfache Eingaben und Ausgaben (Input/Output), wobei

viele davon unabhängig von den primären motorischen und sensorischen Arealen sind.

(Ursprünglich hatte man angenommen, daß die assoziativen Areale Informationen von den

primären sensorischen Arealen erhalten, sie integrieren und analysieren, und danach geben

sie die Informationen weiter an die motorischen Areale.)

Allgemein angenommen werden 3 große assoziative Bereiche: präfrontales Areal, anterior-

temporales Areal und parietal-temporal-occipitales Areal. Insgesamt gesehen sind diese

Bereiche in den verschiedensten intellektuellen und kognitiven Funktionen involviert.

Abgegrenzte Ansammlungen von grauer Substanz, also Nervenzellen, in anderen Teilen als

den kortikalen Bereichen oder auch in der weißen Substanz von Groß- und Kleinhirn werden

als Nucleus (Kerngebiet) bezeichnet bzw. auch als Ganglion (s.u.) und Corpus.

Unterhalb des cerebralen Cortex besteht jede Hemisphäre aus weißer Substanz, in der eine

Anzahl von isolierten „Flecken“ grauer Substanz gefunden werden können. Diese Flecken

grauer Masse werden als Basalkerne (Basalganglien) (s. Abb. 8) bezeichnet. Sie erfüllen

wichtige motorische Funktionen und ihre Schädigung wird mit einer bereiten Palette

neurologischer Störungen in Zusammenhang gebracht, z.B. Parkinson, Chorea (verschiedene

Krankheitsbilder; schnelle, unwillkürliche Kontraktionen einzelner Muskelgruppen), Athetose

25

(langsame, geschraubte, z.T. überdehnte Bewegungen bei einer willkür-motorischen

Handlung), wobei all dies auch mit sprachlichen Störungen einher gehen kann.

Die Basalkerne sind klar abgegrenzte größere Kernstrukturen, von denen die wichtigsten als

Striatum (Putamen u. Caudatum) und als Pallidum bezeichnet werden. Sie liegen in der Tiefe

der Hemisphäre, wobei das Striatum (Corpus striatum) als oberste subkortikale Schaltstelle

des extrapyramidalen motorischen Systems gilt. (Diese Bereiche könnten bei Sprachstörungen

mit möglicherweise subkortikalem Ursprung eine Rolle spielen.)

Bevor wir uns nun näher der Verteilung der motorischen und sensorischen Funktionen im

Cortex zuwenden, sollte darauf hingewiesen werden, daß es sich bei der weißen Substanz, die

im cerebralen Cortex vorgefunden werden kann, um myelinisierte Nervenfasern handelt, die

in drei Richtungen führen. Zuerst einmal gibt es die sog. Assoziationsfasern, die neuronale

Impulse von einem Bereich des Cortex zu einem anderen innerhalb derselben Hemisphäre

transportieren. Ein solches Bündel an Fasern, das für die Sprachfunktion wichtig ist, ist der

sog. Fasciculus arcuatus (Fasciculus ist ein Bündel von Nervenfasern im ZNS.). Der Fasc.

arcuatus verbindet nun einen für sie Sprache wichtigen Bereich im Temporallappen mit einem

für die Sprache wichtigen Bereich im Frontallappen und wenn der Fasc. arcuatus geschädigt

ist, kann es zu einer Störung kommen, die als Leitungsaphasie bezeichnet wird. Die zweite

Gruppe von Fasern sind die sog. Kommissuren, die die neuronalen Impulse von einer

Hemisphäre in die andere übertragen. Die dritte Gruppe sind nun Fasern, die die subkortikale

weiße Substanz ausmachen, sind sog. Projektionsfasern, die die aufsteigenden (afferenten)

bzw. absteigenden (efferenten) Bahnen ausmachen, die das Prosencephalon mit den

Strukturen des weiter unten liegenden ZNS, dem Hirnstamm und dem Rückenmark,

verbinden.

Wir wollen uns nun den wichtigen motorischen Bereichen im Cortex zuwenden. Im

Frontallappen finden wir jene Zentren, die für die willkürlichen Bewegungen zuständig sind.

Dabei handelt es sich um die sogenannten motorischen Areale des Cortex. Diese liegen

26

unmittelbar vor dem Sulcus centralis. Dabei handelt es sich um den sog. Gyrus praecentralis

(Brodman Area 4), der auch als primäres motorisches Areal bezeichnet. Hier finden wir den

Ursprung jener Nervenfasern, die die willentlichen neuronalen Impulse vom Cortex zum

Hirnstamm und Rückenmark senden - somit sind diese Neuronen für die willentliche

Kontrolle der Skelettmuskulatur verantwortlich, wobei wiederum die Kontralateralität zu

beachten ist. Diese Nervenfasern, die das primäre motorische Areal verlassen und zum

Hirnstamm bzw. Rückenmark weitergehen, bilden die sog. Pyramidenbahnen.

Alle Körperteile, die der willkürliche Muskelkontrolle unterliegen, sind in dieser präzentralen

Region repräsentiert (Abb. 9). Diese Somatotopik wurde aufgrund von elektrischen

Stimulationen an Patienten unter Lokalanästhesie erhoben, wobei diese Patienten für

Gehirnoperationen vorbereitet wurden. Diese Abbildung der einzelnen Bereiche des Körpers

wird auch als „motorischen Homunculus“ bezeichnet. Es fällt auf, dass die Bereiche des

Körpers beinahe umgekehrt repräsentiert sind: So gehen die Impulse zum Bereich des Kopfes

von Arealen aus, die im Gyrus präcentralis sehr nahe am Sulcus lateralis liegen; dagegen

kommen die Impulse, die zu den Füßen führen, aus einem Areal, das innerhalb der Fissura

longitudinalis liegt. Weiters fällt auf, daß das Ausmaß, das im Gyrus präcentralis einem

entsprechenden Bereich des Körpers gewidmet ist, nicht unbedingt mit dessen Größe

identisch ist. So läßt sich erkennen, daß die größeren Bereiche des primären motorischen

Areals jenen Körperteilen gewidmet sind, die die Fähigkeit für feine und sehr genaue

Bewegungen besitzen. Daraus ergibt sich, daß der Bereich für die Bewegungen der Hand

größer ist als jener für Bein oder Fuß. Was sich auch in dem Bereich zeigt, der mit der

Produktion von Lautsprache befaßt ist.

Zusätzlich zu diesem primären motorischen Areal wurden weitere motorische Areale in den

Frontallappen festgestellt, dazu gehören das prämotorische Areal (Brodmann 6), das

supplementäre motorische Areal, das sekundäre motorische Areal und das frontale Augenfeld

(Brodmann 8). Wie zu sehen ist, liegt das prämotorische Areal unmittelbar vor dem Sulcus

27

präcentralis und es besitzt nicht nur Fasern, die zu den absteigenden motorischen Bahnen,

einschließlich der Pyramidenbahnen, beitragen, sondern es beeinflußt auch die Aktivität des

primären motorischen Areals. Elektrische Stimulationen des prämotorischen Areals führen zu

komplexen Kontraktionen von Gruppen von Muskeln, wobei gelegentlich Vokalisationen

auftreten oder auch rhythmische Bewegungen wie das abwechselnde Vor- u.

Rückwärtsbewegen eines Beins, das Drehen des Kopfes, Kauen, Schlucken oder das

Verdrehen des Körpers in verschiedene Positionen. Man geht davon aus, daß das

prämotorische Areal die geschickte/geübte motorische Aktivität programmiert und auf diese

Weise das primäre motorische Areal dazu bringt, die willkürlichen muskulären Aktivitäten

auszuführen. Somit könnte dieser Bereich für die Kontrolle von koordinierten, geübten

Bewegungen, die die gleichzeitige Kontraktion von vielen Muskeln erfordern, zuständig sein.

Die Funktion des sekundären motorischen Areals ist (noch?) nicht bekannt.

Das supplementäre motorische Areal ist innerhalb der Fissura longitudinalis lokalisiert, und

zwar unmittelbar vor dem Teil des primären motorischen Areals, der für das Bein zuständig

ist - von manchen wird das supplementäre motorische Areal als ein zweites Sprachareal

angesehen.

Das frontale Augenfeld kontrolliert die willentlichen Augenbewegungen.

Einen weiteren wichtigen Bereich im Frontallappen stellt das sog. Broca Areal (Brodmann 44

u. 45) dar. Im allgemeinen wird es auch als motorisches Sprachzentrum bezeichnet, da es sich

als für die Sprachfunktion spezialisiert erwiesen hat. Das Broca Areal ist im Gyrus frontalis

inferior des Frontallappens lokalisiert. Wir werden später noch auf dieses Areal

zurückkommen und auch auf die Beziehungen zwischen diesem Bereich und dem Auftreten

von spezifischen Sprachstörungen eingehen (s.a.. VO Klinische Linguistik I-III).

Als nächstes wollen wir uns dem Parietallappen zuwenden. Der Parietallappen beherbergt

eine Reihe von allgemeinen sensorischen Funktionen, wie die Empfindungen von Wärme,

Kälte, Berührung, Schmerz, Druck und die Empfindung für die Position des Körpers im

28

Raum - möglicherweise auch Geschmacksempfindungen. All diese Gefühle werden hier

bewußt gemacht. Den primären sensorischen Bereich bildet der Gyrus postcentralis

(Brodmann-Areale 3, 1 u. 2), wobei wieder jeder der beiden Gyri die Informationen von der

kontralateralen Seite des Körpers erhält (ein kleiner Anteil der Berührungsinformation kommt

auch von derselben Seite des Gesichts). Genauso wie beim primären motorischen Areal

können wir Bereiche erkennen, die bestimmten Körperregionen zugeordnet sind (sensorischer

Homunculus, (s. Abb. 8). Die Größe des Bereichs, der einem bestimmten Teil des Körpers

zugeordnet ist, ist direkt proportional zur Zahl der spezialisierten sensorischen Rezeptoren,

die dieser Körperteil besitzt. Dies zeigt sich recht deutlich darin, dass ein ziemlich großes

Areal des G. postcentralis so sensiblen Bereichen wie etwa den Lippen oder der Hand (im

speziellen dem Daumen und dem Zeigefinger) zugeordnet ist und kleinere Bereiche weniger

sensiblen Körperteilen wie z.B. den Beinen oder dem Torso.

Zusätzlich zum G. postcentralis sind für den Psycholinguisten (Sprachpathologen/klinischen

Linguisten) noch zwei weitere Gyri besonders interessant: der Gyrus supramarginalis und der

Gyrus angularis (s. Abb. 6). In der dominanten Hemisphäre (meist die linke) bilden diese

beiden Gyri Teile des sog. posterioren Sprachzentrums, einem Bereich der in engem

Zusammenhang mit der Perzeption und der Interpretation von gesprochener und

geschriebener Sprache steht. Auf die Beziehungen, die zwischen den Schädigungen dieser

Bereiche und spezifischen sprachlichen Defiziten (Aphasien, Apraxien, Dyslexien,

Dysgraphien) bestehen, werden wir noch später zurückkommen (s.a. VO Klinische Linguistik

I-III).

Im Temporallappen ist nicht nur der Hörsinn lokalisiert, sondern hier finden wir auch einige

Neuronenkomplexe, die ebenfalls für die Sprache wichtig sind. Das primäre auditive Areal ist

bei der lateralen Ansicht nicht erkennbar, da es im Inneren des Sulcus lateralis liegt. In der

Tiefe des Sulcus lateralis liegen auch zwei querverlaufende Windungen, die sog. Gyri

temporales transversi od. Heschlsche Querwindungen, wobei in der Rinde der vorderen

29

Querwindung die Hörstrahlung endet. Die Rinde der beiden Querwindungen entspricht den

Feldern 41 u. 42, die auch als Hörrinde bezeichnet werden. Elektrische Reizungen der

benachbarten Rinde (Feld 22) haben gezeigt, daß es zu akustischen Sensationen wie Summen,

Brummen oder Klingeln kommt. Der akustische Cortex ist nach Tonfrequenzen (tonotopisch)

organisiert, wobei man annimmt, daß in der Hörrinde des Menschen die höchsten Frequenzen

medial und die tiefsten Frequenzen lateral registriert werden. In der dominanten Hemisphäre

liegt im hinteren Bereich des Gyrus temporalis superior das sog. Wernickesche

Sprachzentrum, bei dessen Schädigung es z.B. zu Problemen mit dem Sprachverständnis

kommt.

Im Okzipitallappen ist das Sehzentrum lokalisiert, wobei der primäre visuelle Bereich (Area

17) den Sulcus calacarinus umgibt (s. Abb. 6). Auf das visuelle System werden noch bei der

Besprechung von sogenannten Split-brain Patienten zurückkommen (s. VO Klinische

Linguistik I).

2.3.2 Diencephalon

Das Diencephalon besteht aus 4 übereinander gelagerten Etagen: dem Epithalamus, dem

Thalamus dorsalis, dem Subthalamus und dem Hypothalamus. Diese Anordnung ist im

embryonalen Gehirn deutlich festzustellen. Allerdings wird sie im Laufe der Entwicklung

aufgrund des regional unterschiedlichen Wachstums deutlich abgeändert, so daß durch die

Massenzunahme des dorsalen Thalamus und die Ausdehnung des Hypothalamus diese beiden

Strukturen den Aufbau des reifen Zwischenhirns bestimmen. Der Liquorraum des

Diencephalons ist der 3. Ventrikel (Ventrikulus tertius), der lateral von Thalamus und

Hypothalamus begrenzt wird.

Der Thalamus ist eine große runde graue Masse, die erst durch einen Medianschnitt sichtbar

wird (s. Abb. 10). Der Thalamus wird fast vollständig in einen linken und rechten durch den

30

3. Ventrikel geteilt. Die beiden Seiten werden verbunden durch die Adhaesio interthalamica

(18), einem Band grauer Masse.

(Einige weitere Angaben zu Abb. 10: 22: Hypophyse, 23: Corpora mamillaria, 20:

Commissura anterior, 21: Chiasma opticum, 24: Epiphysis (Zirbeldrüse), 25: Foramen

interventriculare: Verbindung zw. 3. Ventrikel und Seitenventrikel der Hemisphäre, 26:

Aequeductus cerebri, erweitert sich unter dem Kleinhirn zum 4. Ventrikel (=27), 29: Lamina

tecti (Vierhügelplatte) des Mittelhirns = Schaltstätten für optische u. akustische Bahnen)

Jeder Teil des Thalamus enthält mehr als 30 Kerne, die für wichtige sensorische und

motorische Funktionen verantwortlich sind. Der Thalamus stellt einen der wichtigsten

sensorischen Integrationszentren des Gehirns dar und wird manchmal auch als das „Tor zum

cerebralen Cortex“ bezeichnet. Mit Ausnahme der olfaktorischen Bahnen führen alle

wichtigen sensorischen Bahnen auf ihrem Weg zum cerebralen Cortex durch den Thalamus.

Somit erhält der Thalamus sensorische Information über die sensorischen Bahnen, dabei

integriert er diese Informationen, und schickt sie weiter zum cerebralen Cortex zur weiteren

Analyse und Interpretation.

Zusätzlich dazu ist der Thalamus auch mit den wichtigsten motorischen Zentren des

cerebralen Cortex verbunden und er kann die Impulse aus dem Cortex verstärken oder

behindern. Hinsichtlich seiner Funktion im Bereich der Sprache werden wir noch später

zurückkommen (s. VO KL I-III).

Der Hypothalamus liegt unterhalb des Thalamus und bildet den Boden und die seitlichen

Wände des 3. Ventrikel.

Wenn man das Gehirn von unten betrachtet (s. Abb. 11), dann erkennt man den

Zwischenhirnboden und den Hirnstamm, sowie die ventralen Flächen des Frontal- (1) und des

Temporallappens (2). Einige weitere Teile: Fissura longitudinalis (3), Bulbus olfactorius (4),

Tractus olfactorius (5), (Trigonum olfactorium (6): Aufteilung des Tractus in zwei Striae

olfactoriae, diese begrenzen die von den Gefäßeintritte durchlöcherte Substantia perforata

31

anterior (7)), Zwischenhirnboden: Chiasma opticum (8), N. opticus (9), Hypophyse (10),

Corpora mamillaria (11). Pons (12), Medulla oblongata (13), Vermis cerebelli (14) und die

Kleinhirnhemisphären (15).

Obwohl der Hypothalamus (bildet den Boden des Zwischenhirns: Chiasma opticum, Tuber

cinereum, Infundibulum, Corpora mamillaria) nur einen kleinen Teil des Gehirn bildet,

überwacht er eine Reihe von wichtigen Körperfunktionen. So kontrolliert und integriert der

Hypothalamus das autonome Nervensystem, das z.B. die Kontraktionsrate des Herzmuskels

reguliert oder die Sekretion vieler Drüsen im Körper kontrolliert, ebenso wird die

Hormonausschüttung reguliert. Wenn der cerebrale Cortex starke Emotionen interpretiert,

dann schickt er häufig Impulse über Bahnen, die den Cortex mit dem Hypothalamus

verbinden, was wiederum in Impulsen an das autonome Nervensystem oder in Aktivitäten der

Hypophyse resultieren kann. Daraus ergeben sich große Veränderung in den körperlichen

Aktivitäten. Zusätzlich werden auch Emotionen wie Zorn od. Agression und auch das

Sexualverhalten vom Hypothalamus kontrolliert.

2.3.3 Hirnstamm (Truncus encephali/cerebri)

Wenn man nun die beiden Hemisphären und das Cerebellum entfernt, bleibt eine stielartige

Masse des ZNS übrig - der Hirnstamm. Der Hirnstamm (s. Abb. 12) besteht von rostral (oben)

nach kaudal (unten) gesehen aus dem Mesencephalon (Mittelhirn C3) und dem

Rhombencephalon (Rautenhirn). Letzteres besteht wiederum aus dem Metencephalon

(Hinterhirn) und dem Myelencephalon (Markhirn (C1)). Das Metencephalon umfaßt den

Pons (Brücke (C2)) und das Cerebellum (Kleinhirn C8)). Wir wollen nun im folgenden ganz

kurz auf die einzelnen Teile eingehen.

Das Mesencephalon (Mittelhirn) ist der kleinste Teil des Hirnstamms und liegt zwischen dem

Diencephalon und dem Pons (s. Abb. 12). Teile: Pedunculi cerebri (AD28: absteigenden

Bahnen), dazwischen die Fossa interpeduncularis (A29, durchlöchert aufgrund zahlreicher

32

Gefäße: Substantia perforate posterior). Wie auf der Abb. 12 zu sehen, entspringt der

Hirnnerv III (oculomotorius) an der Seite der Grube. (Auf die Hirnnerven werden wir später

noch kurz zurückkommen.) Einige weitere Teile: Vierhügelplatte (Lamina tecti, Lamina

quadrigemina (BD30)) mit den zwei oberen und zwei unteren Hügeln (Colliculi superiores

(D31) und Colliculi inferiores (D32).

Der Pons liegt zwischen dem Mittelhirn und der Medulla oblongata und anterior zum

Cerebellum und wie zu sehen ist (Abb. 12), wird der Pons durch den 4. Ventrikel vom

Cerebellum getrennt. Seitlich sieht man den Hirnnerv V (trigeminus), wobei jeder Trigeminus

aus einer kleineren motorischen Wurzel und einer größeren sensorischen Wurzel besteht. Aus

der Furche zwischen der Pons und der Medulla oblongata treten die Hirnnerven VI

(abducens), VII (facialis) und VIII (vestibulocochlearis) aus. Obwohl der Pons hauptsächlich

aus weißer Masse besteht, beinhaltet er auch ein Anzahl von Nuclei, so die motorischen u.

sensorischen Nuclei des Trigeminus, des Facialis und des Abducens. Ein Nucleus, der mit der

Kontrolle der Atmung in Verbindung steht, ist ebenfalls hier lokalisiert.

Die Medulla oblongata zwischen dem kaudalen Rand der Pons und der Pyramidenkreuzung

(Decussatio pyramidum, Abb. 12: A4) bildet den Übergang vom Rückenmark zum Gehirn.

(Weitere Teile: Sulcus lateralis anterior A5, Pyramides A6, Oliva A7). Die Medulla oblongata

besteht hauptsächlich aus weißen Faserbündeln, innerhalb derer auch Nuclei vorhanden sind.

Diese Nuclei bilden Zentren zur Kontrolle von verschiedenen Aktivitäten oder beinhalten die

Zellkörper einiger Hirnnerven: IX (glossopharyngeus), X (vagus), XII (hypoglossus) und XI

(accesorius).

Abschließend wenden wir uns noch kurz dem Cerebellum zu. Wie wir bereits gesehen haben

liegt das Cerebellum hinter (dorsal) dem Pons und der Medulla und unterhalb (kaudal) der

Okzipitallappen des Prosencephalons. Es besteht auch aus zwei Hemisphären (cerebellare

Hemisphären), die durch einen mittleren Teil (s. Abb. 11), dem Vermis cerebelli, verbunden

33

sind. Auf jeder Seite ist das Cerebellum mit dem Hirnstamm mittels drei Bündeln von

Nervenfasern verbunden (Pedunculi cerebellares BD9, 10, 11).

Ganz allgemein gesehen sorgt das Kleinhirn dafür, dass Muskelbewegungen elegant, glatt und

gut koordiniert ablaufen. Obwohl es selbst keine Muskelbewegungen initiiert, überwacht es

ständig die motorischen Aktivitäten und paßt sie auch entsprechend an. Somit ist das

Cerebellum besonders wichtig für die Koordinierung von schnellen und präzisen Bewegungen

- eben solchen wie für das Sprechen notwendig.

(Die Störungen, die sich aus Läsionen des Cerebellums ergeben, werden wir später noch

näher besprechen (s. VO Klinische Linguistik I-III).)

2.4 Gehirnnerven

Wir wollen uns nun noch kurz den Gehirnnerven und ihren Funktionen zuwenden (s. Abb.

13). Aus der Hirnbasis entspringen 12 Paare von Hirnnerven. Zwar wird von 12

Hirnnervenpaaren gesprochen, obwohl genau genommen, die ersten zwei Paare keine echten

Nerven sind. Der Nervus olfactorius (I) besteht aus Fortsätzen der Sinneszellen im

Riechepithel; seine Funktion besteht im Riechen. Der Nervus opticus (II) ist eine cerebrale

Faserbahn; die Funktion ist Sehen.

Die übrigen Hirnnerven (III - XII) sind echte periphere Nerven. Die Bezeichnungen weisen

entweder auf ihre Funktion oder auf ihr Zielgebiet hin. Einige Hirnnerven besitzen nur

motorische oder sensorische Funktionen, andere besitzen beide Funktionen. Im folgenden

eine kurze Zusammenfassung der wichtigsten Merkmale der Hirnnerven:

III Nervus oculomotorius: Seine Funktion besteht in der Innervation der inneren u. äußern

Augenmuskeln, sowie des Muskels zur Hebung der Lider, außerdem das Zusammenziehen

der Iris und die Anpassung der Linsen;

IV Nervus trochlearis: innerviert einen äußeren Augenmuskel;

34

V Nervus trigeminus: besitzt sensible Fasern für die Haut und die Schleimhäute des Gesichts

und motorische Fasern für die Kaumuskulatur;

VI Nervus abducens: innerviert einen äußeren Augenmuskel;

VII Nervus facialis: besitzt motorische Fasern für die mimische Gesichtsmuskulatur und in

einem separaten Nervenbündel Geschmacksfasern und sekretorische Fasern (Speicheldrüsen);

VIII Nervus vestibulo-cochlearis: afferenter Nerv, der sich aus zwei Komponenten

zusammensetzt, dem N. cochlearis für das Hörorgan und dem N. vestibularis für das

Gleichgewichtsorgan;

IX Nervus glossopharyngeus: versorgt sensibel das Mittelohr, Bezirke der Zunge und des

Pharynx und motorisch Muskeln des Pharynx;

X Nervus vagus: Versorgung pharyngaler und laryngaler Muskeln (levator palatini) und

steigt ab in den Abdominalbereich (parasympathischer Nerv des vegativen Nervensystems);

XI Nervus accessorius: rein motorisch, versorgt die Muskulatur des Pharynx und Larynx und

Trapezmuskeln;

XII Nervus hypoglossus: motorisch, versorgt die Zungenmuskulatur.

Damit haben wir den kurzen Überblick über einige für die Sprache wichtigen Strukturen im

Gehirn abgeschlossen. Obwohl es noch weitere interessante und wichtige Bereiche der

Hirnanatomie gäbe, die mit der Sprache und ihren Störungen zusammenhängen, wie z.B. der

Hirnkreislauf, sollte an dieser Stelle allerdings keine eine vollständige Anatomie des Gehirns

vorgestellt werden, sondern eben nur einige grundlegende Aspekte beleuchtet werden.

3 Tierische Kommunikationssysteme und Sprache

3.1 Allgemeines

Die Sprache in ihren Modalitäten – lautlich und visuell (einschließlich Gebärdensprache) –

stellt das wichtigste Kommunikationsmittel des Menschen dar. Es stellt sich aber die Frage,

35

ob die Fähigkeit Sprache zu verwenden, ein einzigartiges Kennzeichen für die Spezies

Mensch ist. In diesem Zusammenhang ist es notwendig einerseits tierische

Kommunikationsformen zu untersuchen als auch andererseits auf die Versuche einzugehen, in

denen man Tieren – hauptsächlich Menschenaffen – sprachähnliche Kommunikationssysteme

zu lehren suchte.

Daß Tiere miteinander kommunizieren ist wohl eine Binsenweisheit und ebenso klar ist, daß

sie dazu oft sehr reichhaltige Systeme verwenden. Nun ist allerdings Kommunikation leichter

zu definieren als Sprache. Ganz allgemein kann man davon ausgehen, daß das Grundprinzip

der Kommunikation im Senden und Empfangen von Information besteht. Ein genauerer Blick

zeigt aber auch, daß Kommunikation im o. e. Sinnen aus mehreren Bestandteilen besteht: 1) je

ein Sender und Empfänger, 2) eine Nachricht (Information), 3) ein gemeinsames

Zeichensystem, das sowohl Sender als auch Empfänger verschlüsseln (enkodieren) und

entschlüsseln (dekodieren) können, 4) auf seiten von Sender und Empfänger die

Möglichkeiten und Fähigkeiten der Dekodierung und Enkodierung, 5) einen Kanal, auf dem

die Nachricht weitergegeben werden kann, 6) einen Kontext, in dem Kommunikation

stattfindet.

Die einzelnen Bestandteile können natürlich auch variieren, so können die Empfänger oder

auch Sender verschiedenster Art sein – Menschen, Tiere oder auch Computer. Wir können

auch zwischen einseitiger, zweiseitiger oder mehrseitiger Kommunikation – je nachdem wie

viele Sender und Empfänger daran teilnehmen – unterscheiden.

Was nun die Nachricht bzw. das Signal, das übertragen wird, anbelangt, so wird manchmal

darauf hingewiesen, daß es notwendig sei, zwischen kommunikativen und informativen

Signalen zu unterscheiden. Damit ist gemeint, daß ein kommunikatives Signal eine gewisse

Intentionalität besitzt, was einem informativen Signal fehlt. D.h. wenn jemand niest, so kann

dies eine Information darüber sein, daß er/sie verkühlt ist, aber ein kommunikatives Signal ist

es nicht, denn das wäre eine Mitteilung über die Verkühlung. Wenn man den Aspekt der

36

Intentionalität berücksichtigt, dann wird es schwierig, von Kommunikation zu sprechen, wenn

man sich auf die chemische Interaktion von z.B. Zellen bezieht. Wir wollen hier aber nicht

weiter die Definition(en) des Begriffs Kommunikation verfolgen, sondern uns der Frage

zuwenden, inwieweit sich nun tierische Kommunikationssystem von dem auf Sprache

basierenden Kommunikationssystem des Menschen unterscheiden.

3.2 Tierische Kommunikationssysteme

Wenn es um die Vermittlung von Signalen zwischen einem Sender und Empfänger geht, so

stellen wir bei Tieren die unterschiedlichsten Möglichkeiten fest. So verwenden Ameisen,

Motten und andere Insekten Pheromone – Duftstoffe – als Signale, Glühwürmchen leuchten,

Frösche quaken, Bienen tanzen usw. Nicht zuletzt weil letztere Kommunikationsform auch

häufig als „Bienensprache“ bezeichnet wird, soll ganz kurz darauf eingegangen werden15.

Grundsätzlich verwenden die Honigbienen zwei Arten von „Tänzen“ mit denen sie die

Informationen über Richtung, Entfernung und Ergiebigkeit einer Futterquelle an andere

Sammlerinnen weitergeben (s. Abb. 14).

Liegt die Futterquelle weniger als 100 Meter vom Bienenstock entfernt, wird mit dem

sogenannten Rundtanz (Abb. 14: 1a) darauf aufmerksam gemacht. Dieser Tanz enthält keine

Angaben über die tatsächliche Entfernung. Liegen die Sammelquellen weiter entfernt, dann

wird der sogenannte Schwänzeltanz (Abb. 14: 1b) verwendet, dabei wird die Entfernung über

die Tanzgeschwindigkeit ausgedrückt – je größer die Entfernung desto langsamer der Tanz

(Abb. 14: 3).

Die Richtung (s. Abb. 14: 4) ergibt sich aus der durch das Schwänzeln hervorgehobenen

Tanzstrecke. Tanzt die Biene auf dem waagrechten Anflugbrett, dann zeigt die

Schwänzelstrecke direkt auf den Futterplatz. Doch fast immer erfolgt der Tanz auf der

senkrecht stehenden Wabe im Stock. In diesen Fällen wird nun die Schwerkraft benutzt, um

15 Besonders untersucht von K. von Frisch, z.B. 1974. Decoding the language of bees. In: Science 185: 663-668

37

die Futterquelle im Verhältnis zur Position der Sonne auszudrücken, dabei gibt die Senkrechte

nach unten die Richtung zur Sonne an. Der Winkel zwischen der Schwänzelstrecke und dieser

Senkrechten gibt den Winkel zwischen Sonne und Futterquelle wieder. Die Bienen im Stock

können nun die Tanzrichtung mit dem Schweresinn, ihren Sinneshaaren und Fühlern

feststellen und so beim Ausfliegen aus dem Stock in den richtigen Winkel zur Sonne

umsetzen16.

Somit handelt es bei der „Bienensprache“ um ein symbolisches Kommunikationssystem –

eine „Tanzsprache“, deren Begriffe durch angeborene Verknüpfungen festgelegt sind und

verstanden werden.

Wenn wir uns anderen Tieren zuwenden, so können wir feststellen, daß für alle Wirbeltiere

charakteristisch ist, daß sie eine Anzahl von verschiedenen Lauten besitzen, die unter jeweils

spezifischen Bedingungen verwendet werden. Dabei scheint sowohl die Anzahl dieser

Vokalisierungen als auch ihre Verwendungen eher eingeschränkt zu sein. Trotzdem scheinen

manche Systeme von Primaten eine überraschende Komplexität aufzuweisen.

Die lautlichen Äußerungen von Vögeln17 bestehen aus Schreien und Gesängen. Die Schreie

können z.B. Warnungen etc. signalisieren und sie sind im Gegensatz zu den Gesängen

strukturell eher einfach. Die Gesänge können aber in geordnete Unterabschnitte zerlegt

werden, d.h. sie besitzen eine lineare Struktur. Jeder Unterabschnitt kann selbst wieder aus

einzelnen Noten bestehen. Die einzelnen Teile der Gesänge haben eine bestimmte

Reihenfolge, die offensichtlich nicht verändert wird. Zwar lassen sich bei manchen

Vogelarten Duette zwischen Männchen und Weibchen beobachten, doch scheinen diese

Gesänge keine Struktur außer eben das abwechselnde Singen aufzuweisen.

16 Der Sonnenstand kann auch bei Bewölkung bestimmt werden, da die Facettenaugen der Bienen das Polarisationsmuster des Sonnenlichts am Himmel wahrnehmen können. Da die Polarisationsmuster vom Sonnenstand abhängen, kann die Biene aus ihrer Wahrnehmung den jeweiligen Sonnenstand erschließen. 17 Vgl. zu diesem Abschnitt: Demers,R.A., 1988. Linguistics and animal communication. In: Newmeyer,F.J. (ed.) Linguistics: The Cambridge Survey. III Language: Psychological and Biological Aspects. CUP: 314-335

38

Weit verbreitet ist auch die Annahme, daß Wale und Delphine Sprache besitzen. Die

Vokalisierungen der Delphine bestehen aus Klicks, Bellen, Kläffen und Stöhnen. Die

Funktionen der verschiedenen Vokalisierungen sind allerdings noch nicht vollständig

erforscht. Zwar scheinen die Klicks hauptsächlich für die Echoortung verwendet werden,

doch wird auch eine kommunikative Funktion vermutet. Probleme hinsichtlich der Bedeutung

ergeben sich auch für die Pfiffe und das Quietschen, obwohl vorgeschlagen wurde, daß ein

jeder Delphin seinen individuellen Pfiff hat, der ihn identifiziert. Trotzdem bleiben mehr

Fragen als Antworten bezüglich der Struktur und der Bedeutungen in der Kommunikation

zwischen Delphinen.

Im Gegensatz dazu besitzt der Gesang des Buckelwals eine lineare Abfolge, denn er besteht

aus einer Reihenfolge von Teilen. Trotz verschiedener Erkenntnisse über die Struktur der

Walgesänge sind die Funktionen nicht bekannt.

Die Untersuchungen zu den Vokalisierungen der Affen haben gezeigt, daß sie einen relative

hohen Grad an Komplexität besitzen. So zeigte sich bei der Untersuchung der Meerkatzen,

daß diese Spezies eine Klasse von verschiedenen Warnschreien für verschiedene Arten von

Gefahren entwickelt haben. So lassen sich unterschiedliche Schreie beobachten für Gefahren

durch Schlangen, Leoparden (bzw. Raubtiere auf dem Boden) und Adler (bzw. Raubtiere aus

der Luft).

Für die meisten Tiere gilt, daß die akustische Strukturiertheit ihres vokalischen Repertoires

angeboren ist, und daß die Erfahrung kaum eine Rolle für Veränderungen der Strukturen im

Laufe der Entwicklung spielt. Dagegen wird die Verwendung von Vokalisierungen bei

einigen nicht-menschlichen Primaten und möglicherweise auch bei einigen Vogelarten18 stark

von der Erfahrung beeinflußt. Dabei ergeben sich Vorteile für jene Individuen, die neue

Verwendungsweisen von Typen bzw. Subtypen von Rufen/Schreien lernen können. Ganz

allgemein scheint aber die Anzahl der unterschiedlichen Signale im tierischen lautlichen

18 Vgl. Hauser,M.D., 1996. The Evolution of Communication. Cambridge, MA.

39

Repertoire begrenzt zu sein – obwohl es natürlich nicht leicht ist zu einer verläßlichen

Schätzung der Größe des Repertoires zu kommen.

Selbst wenn diese und andere tierische Kommunikationssysteme bestens erforscht sind, bleibt

dennoch die Frage bestehen, wie können wir feststellen, ob ein solches System jenem der

menschlichen Sprache entspricht.

3.3 Eine Definition von Sprache?

Was ist nun Sprache eigentlich? Wie läßt sich Sprache definieren? Mit diesen Fragen sollte

man sich beschäftigen, wenn man versucht festzustellen, ob eine tierische

Kommunikationsform als „Sprache“ bezeichnet werden kann. Wenn wir uns Definitionen von

Sprache ansehen, so läßt sich erkennen, daß oft verschiedene Merkmale des Begriffs Sprache

die Definition bestimmen. Einige Beispiele:

„The major perspective we adopt in this book regards a language as a cognitive system which

is part of any normal human being’s mental or psychological structure.“19 (p. 1)

„Language is a neurobehavioral, multidimensional system that provides for the construction

and use of symbols in a manner that enables the conveyance and receipt of information and

novel ideas between individuals. The meanings of symbols in this system are basically

defined and modulated through social interactions.“20 (p.309)

„Auf kognitiven Prozessen basierendes, gesellschaftlich bedingtes, historischer Entwicklung

unterworfenes Mittel zum Ausdruck bzw. Austausch von Gedanken, Vorstellungen,

Erkenntnissen und Informationen, sowie zur Fixierung und Tradierung von Erfahrung und

Wissen. In diesem Sinne bezeichnet S. eine artspezifische, nur dem Menschen eigene

Ausdrucksform, die sich von allen andere möglichen S., wie Tiersprachen, künstlichen

19 Radford, A. et al. 1999. Linguistics. An Introduction. Cambridge 20 Rumbaugh,D.M./Savage-Rumbaugh,E.S., 1994. Language in comparative perspective. In: Mackintosh,N.J. (ed.) Animal Learning and Cognition. New York: 307-333

40

Sprachen u.a. (...) unterscheidet durch Kreativität, die Fähigkeit zu begrifflicher Abstraktion

und die Möglichkeit zu metasprachlicher Reflexion. (...)“21

Diese Beispiele zeigen deutlich die verschiedenen Aspekte, die beim Versuch der Definition

von Sprache eine Rolle spielen können. In allen finden wir einen kognitiven Aspekt, aber es

werden noch weitere hervorgehoben, wie z.B. die Verwendung von Symbolen oder der

Austausch von Information und Wissen zwischen den mit Sprache Kommunizierenden. Im

letzten – dem ausführlichsten – Beispiel werden auch Merkmale angesprochen, die auf

mögliche Unterschiede zwischen der menschlichen Sprache und anderen auch als

„Sprache(n)“ bezeichneten Kommunikationsformen hinweisen.

Die in den jeweiligen Definitionen hervorgehobenen Merkmale von menschlicher Sprache

lassen sich zum größten Teil auf Versuche zurückführen, die Sprache nicht definieren zu

wollen, sondern zu versuchen allgemeine Merkmale festzustellen, die für diese Art von

Sprache charakteristisch sind.

Den detailliertesten Ansatz dazu lieferte Hockett (1963)22, indem er 16 Merkmale bzw.

„design features“ zur Charakterisierung der gesprochenen menschlichen Sprache auflistete (s.

Abb. 15):

1) Vocal-auditory channel (Sprechen und Hören), 2) Broadcast transmission and directional

reception (das gesprochene Signal verbreitet sich in alle Richtungen, aber die Quelle kann

lokalisiert werden), 3) Rapid fading (einmal ausgesprochen verschwindet das Signal rasch), 4)

Interchangeability (jeder kann Sender oder Empfänger sein), 5) Complete feedback (Sprecher

haben Zugang zur ihrer gesamten Produktion), 6) Specialization (die Energie im Signal ist

unwichtig – ein Wort bedeutet dasselbe, ob nun laut oder leise gesprochen), 7) Semanticity

(die Signale haben Bedeutung), 8) Arbitrariness (die Symbole sind abstrakt; mit Ausnahme

einiger onomatopoetischer Wörter), 9) Discreteness (das Vokabular besteht aus diskreten

21 Bußmann,H. 19902 Lexikon der Sprachwissenschaft. sv. „Sprache“; Stuttgart. Anzumerken ist, daß noch weitere spezifische Definitionen angeführt werden.

41

Einheiten), 10) Displacement (man kann über Dinge sprechen, die räumlich und zeitlich

entfernt sind), 11) Openness (die Möglichkeit neue Botschaften zu erzeugen – Kreativität),

12) Tradition (Sprache wird von Generation zu Generation weitergegeben), 13) Duality of

patterning (nur Kombinationen von an sich bedeutungslosen Elementen ergeben Bedeutungen

– einzelne Laute besitzen keine Bedeutung, aber in Kombination entsteht Bedeutung: [k], [i],

[n], [d] – [kind]), 14) Prevarication (Sprache gibt uns die Möglichkeit zu lügen und zu

täuschen), 15) Reflectiveness (wir können mit Sprache über Sprache reden – Metasprache),

16) Learnability (der Sprecher einer Sprache kann eine andere erlernen).

Diese Merkmale beziehen sich – wie bereits erwähnt – auf die gesprochene Sprache, denn für

die geschriebene Sprache gilt wohl nicht, daß das Signal rasch verschwindet, aber trotzdem

wird kaum jemand bezweifeln, daß geschriebene Sprache nicht ebenfalls als Sprache zu

bezeichnen ist. Andererseits aber bieten die „design features“ einen brauchbaren Rahmen

dafür, in welchen Eigenschaften sich die tierischen Kommunikationssystem von der

menschlichen Sprache unterscheiden.

Im vorigen Abschnitt haben wir bereits einige Aspekte tierischer Kommunikationsformen

besprochen und bei Betrachtung der „design features“ können wir feststellen, dass viele auch

auf diese Arten von Kommunikation zutreffen, wie z.B. Arbitrarität („arbitrariness“) und

Semantizität („semanticity“): Das Tanzen der Bienen besitzt beides – und noch weitere, wie

z.B. „displacement“ (die Futterquelle ist räumlich entfernt). Auch haben wir gesehen, daß

einige Primaten (z.B. bestimmte Lemurenarten, Rhesusaffen, Meerkatzen) Vokalisierungen

produzieren, die eine funktionale Referenz aufweisen, indem sie die anderen über spezifische

Objekte und Ereignisse – Futter(plätze) und Raubtiere – benachrichtigen. Übrigens können

solche Nachrichten auch von einer Vogelart – den Haushühnern – übermittelt werden. Die

tatsächliche Verwendung der entsprechenden Vokalisationen hängt allerdings häufig davon

ab, dass andere Primaten bzw. Hühner anwesend sind, denn fehlen die Hörer, dann wird trotz

22 Hockett,C.F., 1963. The problem of universals in language. In: Greenberg, J.H. (ed.) Universal of Language.

42

der Anwesenheit eines Raubtieres kein Alarmruf ausgestoßen. Dies weist doch darauf hin,

daß erkannt wurde, daß Warnungen nur dann einen Sinn haben, wenn sie ihrer sozialen

Funktion gerecht werden. Natürlich können und sollten auch die verschiedenen tierischen

Kommunikationsformen noch genauer auf das Vorhandensein von „design features“

untersucht werden, vor allem auch deswegen, weil häufig darauf hingewiesen wird, daß das

menschliche Sprachverhalten durch das Bewußtsein von Wünschen und Intentionen gesteuert

wird, und daß auch die Möglichkeit der sprachlichen Kreativität ein wesentliches Merkmal

darstellt. All dies scheinen tierischen Kommunikationsformen nicht zu besitzen23. Trotzdem

ist es nicht auszuschließen, daß der Unterschied zwischen den tierischen

Kommunikationssystemen und der Sprache nur ein gradueller sein könnte.

3.4 Können Tiere Sprache lernen?

Obwohl Tiere ihre eigenen Kommunikationssysteme besitzen, wurde bzw. wird immer wieder

versucht, verschiedenen tierischen Spezies – im besonderen verschiedenen Primatenarten –

Sprache bzw. sprachähnliche Kommunikationssysteme beizubringen. Schließlich geht es

dabei auch um die grundsätzliche Frage, ob Tiere die biologischen und kognitiven

Voraussetzungen für das Erlernen von Sprache besitzen, es aber für sie aber im Laufe der

Evolution nicht notwendig war. Andererseits geht es auch darum, ob möglicherweise nur die

Menschen die für die Sprache notwendigen Fähigkeiten besitzen.

Wie jeder weiß, kann man Papageien sprechen beibringen. Daher lag es auch nahe, sich dieser

Fähigkeit zu bedienen, um zu untersuchen, in welchem Ausmaß ein Papagei eine Sprache

erlernen kann. Beim „Versuchskaninchen“ handelte es sich um einen afrikanischen

Cambridge, Mass. 23 Häufig wird auch darauf hingewiesen, daß es die Eigenschaften und Möglichkeiten, die die Syntax der Sprache bietet, sind – also z.B. die durch die Kombination von Wörtern entstehenden neuen Bedeutungen, die die Sprache von tierischen Kommunikationssystemen unterscheidet. Vgl. dazu: Kako,E., 1999a. Elements of syntax in the systems of three language trained animals. Animal Learning and Behavior 27: 1-14

43

Graupapagei (Psittacus erithacus)24 namens Alex, der einem entsprechend umfangreichen

Lernprogramm unterzogen wurde. Nach 13 Jahren besaß Alex ein Vokabular von ca. 80

Wörtern, darunter Objektbezeichnungen, Adjektive und Verben. Er war in der Lage kurze

Folgen von Wörtern zu produzieren und auch zu verstehen. Weiters konnte Alex 40 Objekte

nach ihren Farben und auch danach, woraus sie bestanden, ordnen. Er verstand auch das

Konzept gleich – verschieden und konnte bis 6 zählen. Zwar schien Alex in der Lage

syntaktische Kategorien entsprechend zu verwenden, aber er kannte nur wenige Verben und

schien auch nicht in der Lage zu sein, Verben und Objekte zu einander in Beziehung zu setzen

zu können. Außerdem besaß er nur wenige Funktionswörter, die ja für den Aufbau der

Beziehungen in Sätzen notwendig sind (Kako, 1999a25). Aus letzteren Beobachtungen wurde

nun geschlossen, daß Alex nur äußerst beschränkte sprachliche Fähigkeiten aufwies.

Trotzdem ist nicht zu übersehen, daß Alex zumindest rudimentäre sprachliche Fähigkeiten

erlernt hatte, wenn auch die Dauer der Lernphase in Hinblick auf die resultierenden

Fähigkeiten im Vergleich zum menschlichen Erstsprach(en)erwerb und auch zum –

wahrscheinlich der adäquatere Vergleich – dem menschlichen Zweitsprach(en)erwerb doch

sehr lang war.

Zwar wurde auch versucht anderen Tieren, z.B. Delphinen26, Sprache beizubringen, doch die

meisten Versuche beschränkten sich auf Primaten.

3.4.1 „Sprechende“ Menschenaffen

Die Frage nach der Sprachfähigkeit von Primaten hat eigentlich eine lange Tradition, denn sie

beginnt schon mit den Postulaten Darwins im 19. Jhdt. bezüglich der biologischen und

24 Pepperberg,I.M., 1983. Functional vocalizations by an African grey parrot (Psittacus erithacus). Zeitschrift für Tierpsychologie 55: 139-160; dies. 1983. Cognition in the African grey parrot: Preliminary evidence for auditory/vocal comprehension of the class concept. Animal Learning and Behavior 11: 179-185; dies. 1987. Acquisition of the same/different concept by an African grey parrot (Psittacus erithacus): Learning with respect to categories of color, shape, and material. Animal Learning and Behavior 15: 423-432 25 s. Kako Fn. 23) 26 s. z.B.: Herman,L.M./Richards,D.G./Wolz,J.P., 1984. Comprehension of sentences by bottlenosed dolphins. Cognition 16: 129-219

44

psychologischen Kontinuität zwischen Affen und den Menschen. Und sie setzt sich fort in den

neueren Erkenntnissen darüber, daß etwa die DNA der Schimpansen (Pan) der des Menschen

ähnlicher ist als die DNA der Gorillas (Gorilla)27. Weiters wurde auch festgestellt, daß die als

Planum temporale bezeichnete Hirnwindung im Schläfenlappen des Schimpansen in der

linken Hemisphäre vergrößert ist, was auch für die meisten Menschen gilt, wo das Planum

temporale einen Teil Wernicke-Areals bildet und offensichtlich liegt auch eine

stammesgeschichtlich ähnliche Entwicklung vor28. Ausgehend von der Überlegung, daß eine

unabhängige parallele Entwicklung im Laufe der Evolution eher unwahrscheinlich ist, kann

man annehmen, daß diese cerebrale Asymmetrie bereits bei den gemeinsamen Vorfahren von

Menschen und Schimpansen (vor ca. 8 Mill. Jahren) entwickelt war. Da nun dieser Bereich

eine wichtige Rolle für die Sprache spielt, stellt sich die Frage, ob die Entwicklung des

Planum temporale beim Schimpansen ein Hinweis auf ein sprachliches Potential darstellt.

Was allerdings voraussetzt, daß die Funktion des Planum temporale in Beziehung zur Sprache

steht.

Der erste ernsthafte Versuch einem Menschenaffen Sprechen beizubringen, war jener von

Furness29 (1916) mit einem Orang-Utan (Pongo pygmaeus), der allerdings nur vier Wörter

äußerst schlecht produzieren konnte. In einem weiteren Versuch wuchs eine Schimpansin,

Gua, zusammen mit dem Sohn, Donald, der Forscherfamilie auf (Kellogg/Kellogg, 193330).

Gua konnte nicht sprechen und verstand auch nur einige Wörter, aber sonst entsprach ihre

Entwicklung in etwa jener von Donald. Am bekanntesten von den Versuchen Schimpansen

das Sprechen beizubringen, ist jener von Hayes (195131), in dem die Schimpansin Vicki wie

ein Kind aufgezogen wurde. Auch in diesem Fall war es nicht möglich Vicki das Sprechen

27 Sibley,C.C./Ahlquist,J.E., 1987. DNA hybridization evidence of hominoid phylogeny: Results froman expanded data set. J. of Molecular Evolution 26: 99-121 28 Gannon,P.J./Holloway,R.L./Broadfield,D.C./Braun,A.R., 1998. Asymmetry of chimpanzee planum temporale: Human-like pattern of Wernicke’s brain language area homolog. Science 279: 220-222 29 Furness,W.H., 1916. Observations on the mentality of chimpanzees and orang-utans. Proceedings of the American Philosophical Society 55: 281-290 30 Kellog,W.N./Kellogg,L.A., 1933. The ape and the child. New York 31 Hayes,C., 1951. The ape in our house. New York

45

beizubringen, so blieb auch ihr produktives Vokabular auf vier – nur sehr schlecht

verständlichen – Wörtern stehen: „mama, papa, cup“ und „up“. Allerdings konnte sie nach

intensivem Üben doch einzelne Wörter und sogar einige Wortkombinationen verstehen.

Diese Versuche fanden noch statt, bevor man herausfand, daß die neuronalen und

anatomischen Einschränkungen des Vokaltrakts der Menschenaffen die Produktion von

Sprachlauten nicht ermöglichen (s. Abb. 16). Wir finden nur beim (erwachsenen) Menschen

einen entsprechend großen Mundrachen, der zusammen mit ihrer neuronalen Versorgung den

Artikulationsorganen die notwendige Beweglichkeit für die Produktion der Sprachlaute

erlaubt. Diese anatomischen Gegebenheiten lassen sich bei den Primaten nicht feststellen und

auch noch nicht – im selben Ausmaß – bei Säuglingen, deren Kehlkopf so hoch steht, daß der

Kehldeckel direkt an das gesenkte Velum anschließt. Das bedeutet, daß Säuglinge noch

gleichzeitig atmen und schlucken können, da die Atmung über die Nase erfolgt, für die der

Eingang zum Kehlkopf offen ist, und die Nahrung um den Kehlkopf herum in die hinten

liegende Speiseröhre gelangen kann.

Diese Erkenntnisse über die physiologischen Einschränkungen der Primaten in bezug auf die

Produktion von Sprachlauten führten dazu, daß man nach anderen Möglichkeiten suchte, um

dieser Spezies von Menschenaffen Sprache bzw. sprachähnliche Kommunikationssysteme

beizubringen.

So begannen etwa um 1965 zwei wichtige Projekte mit Schimpansen, die ein nicht-

lautsprachliches Kommunikationssystem erlernen sollten: das Projekt Washoe

(Gardner/Gardner, 196932) und das Projekt Sarah (Premack, 197133).

Washoe

Die Gardners gingen davon aus, daß Washoe, die wie ein Kind aufgezogen wurde, in diesem

Umfeld American Sign Language erwerben könnte. (American Sign Language ist jene

32 Gardner,R.A./Gardner,B.T., 1969. Teaching sign language to a chimpanzee. Science 165: 664-672 33 Premack,D., 1971. On the assessment of language competence in the chimpanzee. In: A.M. Schrier/F. Stollnitz (eds.) Behavior of Nonhuman Primates. Vol.4. New York: 185-228

46

Gebärdensprache, die von Gehörlosen und Leuten mit Hörstörungen als Standardsprache in

den USA verwendet wird.) Es wurde also eine natürliche Sprache verwendet und nicht zuletzt

deswegen, weil damit das, was Washoe lernte, eine Sprache war, und weiters versuchte man

mit dieser Methode auch Diskussionen darüber, ob die Leistungen Washoes nun sprachlicher

Natur sind oder nicht, hintanzuhalten.

Mit 4 Jahren konnte Washoe ca. 84 Gebärden aktiv produzieren, aber mehr verstehen. Einige

Jahre später besaß sie ein Vokabular von ca. 150 – 200 Gebärden34, wobei viele verschiedene

syntaktische Kategorien auftraten, wie Nomen, Verben, Adjektive, Pronomen und auch

Verneinungen. Außerdem wurde auch darauf hingewiesen, daß sie, wenn sie für etwas noch

keine Gebärde hatte, eine neue „erfand“. So produzierte Washoe als sie das erste Mal eine

Ente sah, eine Phrase aus zwei Gebärden, die sie kannte, nämliche „Wasser“ und „Vogel“.

Weiters kombinierte sie bis zu fünf Gebärden zu korrekten Abfolgen. Sie konnte auch auf

einige Fragen antworten, die durch Fragewörter eingeleitet waren. Weiters konnte sich auch

zwischen den Abfolgen der einzelnen Elemente in Sätze wie „You tickle me“ und „I tickle

you“ unterscheiden

Ein interessante Beobachtung war auch, daß Washoes Adoptivsohn Loulis spontan Gebärden

erwarb, deren Verwendung er bei Washoe gesehen hatte, und daß Washoe ihm auch Gebärden

beibrachte. Dies deutet auf eine Weitergabe von kulturellen Aspekten hin, was auch im o.e.

„design feature“ tradition enthalten ist.

Wenn wir einmal von einer Diskussion darüber, ob nun Washoe tatsächlich Sprache erworben

hat, absehen – wir kommen später noch auf diese Problematik zurück –, dann bleiben doch

einige wichtige Erkenntnisse bestehen: Washoe erlernte eine große Anzahl von manuellen

Zeichen, wobei sie einige selbst „erfand“ (s.o.) und sie verwendete auch Gebärden, wenn sie

allein Zeitschriften anschaute oder spielte.

Sarah

47

Premack ging einen anderen Weg, indem er Plastikkärtchen in verschiedenen Formen und

Farben verwendete, die die Funktionen von Wörtern hatten. Dieses Kommunikationssystem

war also ein eher synthetisches denn ein natürliches. Diese Symbole konnten nach bestimmten

Regeln angeordnet werden – Symbole und Regeln ergeben die Sprache „Premackisch“

(„Premackese“). Durch die Aneinanderreihung von einzelnen Plastikkärtchen produzierte

Sarah einfache Konzepte, die einfache Objekte und Handlungen darstellten (s. Abb. 17). Sie

konnte aber auch Sätze mit den logischen Konnektiven „wenn – dann“ produzieren, und auch

Symbole verwenden, die „...ist die Bezeichnung für“ („...is the name of“) bedeuteten.

Die von Premack verwendeten Methoden vereinfachten zwar die „sprachlichen“ Operationen,

aber sie deuten auch darauf hin, daß Sarah eher keine Sprache erlernt hatte, sondern gute

Problemlösungsfähigkeiten entwickelt hatte35. Was Sarah (und andere Schimpansen in diesem

Projekt) gelernt hatten, war der Umgang mit einem synthetischen Kommunikationssystem,

wobei sie auch zeigten, daß sie in der Lage waren geordnete Beziehungen zwischen Items

herzustellen und sie konnten auch – im Rahmen dieser Methoden – die Funktion und

Verwendung von Wörtern wiedergeben, und zwar u.a. im Rahmen von Beurteilungen nach

dem Schema „gleich oder verschieden“36. Zwar sind die Fähigkeiten der Schimpansen in

diesem Projekt sehr beeindruckend, ob sie als sprachlich zu bezeichnen sind, ist allerdings

eher fraglich, da ja Premack selbst zum Schluß kam, daß seine Versuche den Schimpansen

keine menschliche Sprache beibrachten, sondern eher ihre Fähigkeiten verbesserten Probleme,

die Repräsentationen einschlossen, zu lösen37.

Lana

In den 1970ern begannen Rumbaugh und Kollegen das Projekt LANA. Neu an diesen

Versuchen war, daß ein computergesteuertes Keyboard verwendet wurde, wobei jede Taste

34 Fouts,R.S./Shapiro,G./O’Neil,S. 1978. Studies of linguistic behavior in apes and children. In: P. Siple (ed.) Understanding Language through Sign Language Research. London: 163-185 35 Terrace,H.S., 1979. Is problem-solving a language? J. of the Experimental Analysis of Language 31: 161-175 36 Oden,D.L./Thompson,R.K.R./Premack,D., 1990. Infant chimpanzees spontaneously perceive both concrete and abstract sam/different relations. Child Development 61: 621-631

48

ein unterschiedliches geometrisches Muster – als Lexigramm (s. Abb. 18) bezeichnet –

aufwies38. Das Ziel dieses Projekts war nicht, die sprachliche Kompetenz eines Schimpansen

festzustellen, sondern zu untersuchen, inwieweit ein computergesteuertes

Sprachtrainingssystem verbessert werden könnte, um die Forschung in jenen Bereichen

voranzutreiben, wo die Lern- und Sprachfähigkeit beschränkt sind, entweder aus genetischen

Gründen oder aufgrund von erworbenen Hirnschädigungen.

Mittels der üblichen operanten Konditionierung wurde Lana ein Grundstock von Sätzen

beigebracht, die vom Computerprogramm akzeptiert wurden. Die korrekten Verwendungen

der Tastenkombinationen wurden mit den entsprechenden Getränken, Nahrungsmitteln, einem

Film oder der Hilfestellung durch eine Person usw. „belohnt“. Das Projekt ging bis in die

späten 1970er als Lana schließlich Mutter wurde. Zu den wichtigen Ergebnisse dieses

Projekts zählen u.a. die folgenden39: Computerkeyboards erleichterten die objektivierten die

Untersuchung der sprachlichen Fähigkeiten der Menschenaffen; Lana lernte bereitwillig die

Lexigramme und ihre Verwendungsweisen entsprechend der vom Computer vorgegebenen

Grammatik; Lana verwendete die Lexigramme in innovativer Weise, um

Kommunikationsprobleme zu lösen; Lana konnte mit Hilfe der Lexigramme Objekte

benennen, die sie nicht sehen aber mit ihrer Hand ertasten konnte; weiters konnte sie auch

nach Dingen Fragen, für die sie keine Lexigramm hatte, so bezeichnete sie eine Gurke als eine

„banana which-is green“40, und gelegentlich fragte sie auch nach der Bezeichnung von

Dingen, die sie dann weiterhin verwendete, um diese Dinge zu erbitten. Das Projekt Lana war

der Ausgangspunkt für die Projekte Sherman und Austin (Rumbaugh und Savage-Rumbaugh)

und für weitere Projekte mit anderen Menschenaffen

37 Premack,D., 1983. Animal cognition. Annual Review of Psychology 34: 352-362 38 Rumbaugh,D.M. (ed.), 1977. Language learning by a chimpanzee: The LANA project. New York 39 vgl. dazu: Rumbaugh,D.M./Savage-Rumbaugh,E.S., 1994. Language in comparative perspective. In: N.J. Mackintosh (ed.) Animal Learning and Cognition. New York: 307-333 40 s.o. p. 314

49

Weitere Projekte

Weitere Projekte, die die Gebärdensprache als Medium verwendeten, waren das Projekt

Nim41, ein Schimpanse, („Nim Chimpsky“ ein Wortspiel zu Noam Chomsky), das Projekt

Chantek42, ein Orangutan, und die Fortführung des Projekts Washoe43. Beim Erlernen der

einzelnen Handformen der Gebärdensprache wurde von den Trainern auch „nachgeholfen“,

indem sie die mit den Händen der Affen die entsprechenden Gebärden formten. Die Tiere

lernten zuerst, wie eine Gebärde aussieht, und danach, wann sie in Verbindung mit einem

Ereignis oder Gegenstand zu verwenden ist. Diese Strukturierung des Lernens, die sehr stark

vom Behaviorismus beeinflußt ist, läßt eine Frage offen: Wußten die Tiere eigentlich, was sie

gebärdeten, d.h. kannten sie die Bedeutung der Zeichen, wußten sie, was diese Zeichen

darstellten? Schließlich ist ein zentrales Merkmal jeder natürlichen Sprache, daß sie

Bedeutungen vermittelt, und daß die Benutzer sich (mehr oder weniger) bewußt sind, daß sie

mit der Verwendung von sprachlichen Zeichen bestimmte Inhalte vermitteln. Diese Frage

nach dem „Wissen“ um die Bedeutung der Gebärden der „sprechenden“ Menschenaffen

wurde bei den o.e. Untersuchungen eigentlich nicht gestellt. Zwar wurde aus einzelnen

Gebärdenverwendungen in neuen Situationen das Wissen um die Bedeutung abgeleitet, oder

die Frage wurde weggeschoben, da es Probleme mit den Untersuchungsmethoden gab, die für

diese Zwecke bei „nicht-sprachlichen“ Versuchspersonen anzuwenden wären.

Das Projekt Nim begann mit allergrößtem Optimismus, der sogar so weit ging, daß man

hoffte, daß über kurz oder lang Nim über sein eigenes Leben berichten würde. Detaillierte

Untersuchungen von Nims – oft sehr langen – Kombinationen von Gebärden wiesen nach

(Terrace s. Fn. 41) allerdings nicht mehr Information auf als ein oder zwei Gebärden es getan

41 s. Terrace,H.S./Petitto,L.A./Sanders,R.J./Bever,T.G., 1979. Can an ape create a sentence?. Science 206: 891-902 42 Miles,H.L.W., 1990. The cognitive foundations for reference in a signing orangutan. In: S.T. Parker/K.R. Gibson (eds.) „Language“ and intelligence in monkeys and apes: Comparative developmental perspectives. New York: 511-539 43 s. Fouts,R.S./Fouts,D.H., 1989. Loulis in conversation with the cross-fostered chimpanzees. In: R.G. Gardner./B.T. Gardner/T.E. Van Cantfort, (eds.) Teaching sign language to chimpanzees. New York: 293-307

50

hätten. Ähnliche Untersuchungen von Bändern von anderen Schimpansen bei der

Verwendung der Gebärdensprache kamen ebenfalls zu dem Ergebnis, daß im Grunde

genommen weder Nim noch die anderen eine Sprache besäßen. Die Verwendung der

Gebärden durch Washoe, Koko44 (einem Gorilla) und den anderen „gebärdenden“

Menschenaffen sei eben nichts anderes als eine Imitation der Gebärden, deren Verwendung

sie bei anderen gesehen hatten. Diese Ansicht löste eine dementsprechende Aufregung bei

jenen aus, die sich - zumeist mit größtem Engagement – um die einzelnen Projekte

gekümmert hatten. Trotzdem wurden die Ansichten von Terrace und Kollegen45 zur

vorherrschenden Meinung, daß nämlich aufgrund der Analysen von Nims „Äußerungen“ und

jenen der anderen gebärdenden Menschenaffen im Labor von Terrace diese Primaten keine

sprachliche Kompetenz aufweisen, sondern nur imitieren, und daß Sprache über die

Leistungsfähigkeit der Primaten hinausgehe. Die Daten aus dem Projekt Lana waren in den

diesen Schlußfolgerungen zugrunde liegenden Untersuchungsergebnissen nicht einbezogen.

Die Ergebnisse dieses Projekts wurde so erklärt, daß es sich dabei um Auswendiggelerntem

handelt, das von den Schimpansen in der jeweiligen Situation wiedergegeben wird. Diese

Interpretation scheint allerdings etwas zu kurz zu greifen, da Lana in neuen Situationen die

gelernten „Basissätze“ variierte, um auf diese Situationen einzugehen46. Wenn auch nicht alle

Analysen der „Imitationsinterpretation“ zustimmten47, waren diese Ansichten in diesen Jahren

der „Mainstream“, was die „sprechenden“ Menschenaffen anbelangte.

Kanzi

44 Patterson,F.L., 1990. Language acquisition by a lowland gorilla: Koko’s first ten years of vocabulary development. Word 41: 97-143 45 s. auch: Terrace,H.S., 1982. Why Koko can’t talk. Sciences (New York) 22 (9): 8-9; ders. 1985. In the beginning was the „name“: Amersican Psychologist 40: 1011-1028; Seidenberg,M.S./Petitto;L.A., 1987. Communication, symbolic communication, and language: Comment on Savage-Rumbaugh, McDonald, Sevcik, Hopkins and Rubert. J. of Experimental Psychology: General 116: 279-287 46 s. Fn. 38, Rumbaugh 1977. 47 Miles,H.L.W., 1990. The cognitive foundations for reference in a signing orangutan. In: S.T. Parker/K.R. Gibson (Eds.), „Language“ and intelligence in monkeys and apes: Comparative developmental perspectives. New York: 511-539

51

Bei den in den erwähnten Studien mit Schimpansen gehörten die Versuchstiere der Spezies

Pan troglodytes (die etwas größere Art) an. Vergleichende Untersuchungen weisen aber

darauf hin, daß eine andere Art von Schimpansen, die Bonobos (Pan paniscus), ein reicheres

soziales Leben und ein umfangreicheres natürliches kommunikatives Repertoire aufweisen.

Auf den Bonobo Kanzi (s. Abb. 1948) wurde die Gruppe um Savage-Rumbaugh aufmerksam,

weil er offensichtlich spontan die Bedeutungen der Lexigramme erlernte und später auch

gesprochene Sprache – einzelne Wörter und noch nicht gehörte Aufforderungssätze – zu

verstehen lernte49. Dies wurde während der Arbeit mit Matata, Kanzis Adoptivmutter,

entdeckt. Obwohl Kanzi während der Übungssitzungen mit Matata immer anwesend war,

wurde er nicht gesondert unterrichtet. Nachdem er von ihr getrennt worden war, wurde

deutlich, was er gelernt hatte. Er begann u.a. spontan zu bitten, nach spezifischem Essen und

Trinken zu fragen und Objekte zu benennen. Von da an wurde Kanzi in einer Umgebung

aufgezogen, die mehr an sprachlichen Stimuli bot. Er lernte durch Beobachtung schnell, wie

man danach fragt, um zu speziellen Plätzen im Wald zu kommen, oder auch wie man

entsprechende Nahrung erhält und auch wie man Spiele spielt. Im Gegensatz zu den anderen

Primaten begann Kanzi gesprochene Sprache zu verstehen, und zwar nicht nur Wörter,

sondern auch Sätze.

In der Folge wurde nun Kanzis Sprachverständnis mit dem eines 21/2jährigen Kindes

verglichen – Kanzi war 8 Jahre alt. Diese Tests enthielten noch nicht geübte Aufgaben wie ein

spezifisches Objekt an einen bestimmten Ort oder einer bestimmten Person zu bringen, oder

mit einem spezifischen Objekt etwas in Bezug zu einem anderen Objekt zu tun (z.B. „Put a

rubber band on your ball“). Das Ergebnis war, daß sowohl Kanzi als auch Alia ca. 70% der

Aufgaben richtig durchführten. Es wurde auch deutlich, daß Kanzi wesentlich mehr verstehen

konnte, als er produzieren konnte. Sein Verständnis entsprach also in etwa jenem eines

48 Coverphoto des Buchs: Savage-Rumbaugh,S./Shanker,St.G./Taylor,T.J., 1998. Apes, Language, and the Human Mind. Oxford

52

21/2jährigen Kindes und seine Produktion der eines 1-11/2jährigen50. Diese Ergebnisse wurden

auch mit zwei weiteren Schimpansen wiederholt51.

Trotz dieser beeindruckenden Fähigkeiten der Versuchstiere bleiben doch einige Fragen

hinsichtlich der Beziehung dieser Fähigkeiten zur menschlichen Sprache offen. Da ist einmal

die Frage nach der Bedeutung: Besitzen die Symbole für die Versuchstiere dieselben Aspekte

der Bedeutung wie die sprachlichen Symbole für den Menschen? D.h. üblicherweise ist die

Bedeutung eines Wortes in ein Netz von Bedeutungsrelationen eingebettet. Es bestehen

Beziehungen der Überordnung, der Unterordnung, der Bedeutungsähnlichkeit, der

Bedeutungsgegensätzlichkeit, der Inkompatibilität usw. So wissen wir z.B., daß ein Baum

eine Pflanze ist, daß eine Tanne ein Baum ist, daß eine Fichte einer Tanne hinsichtlich

bestimmter Eigenschaften ähnlich ist, daß eine Birke zwar auch ein Baum ist aber andere

Merkmale aufweist als eine Tanne usw. Aus den o.e. erwähnten Beispielen der Verwendung

von Symbolen durch die Versuchstiere dürfte wohl klar geworden sein, daß die von den Affen

benützen Symbole keine so reiche semantische Struktur aufgewiesen haben. Zwar schienen

Sherman uns Austin, zwei Schimpansen (Pan troglodytes) im Savage-Rumbaugh Programm,

in der Lage zu sein, die Lexigramme von nicht vorhandenen Objekte ihrem übergeordneten

Symbol zuzuordnen (z.B. „apple“, „banana“ und „strawberry“ zu „fruit“). Allerdings wurde

diese Fähigkeit durchaus kontroversiell diskutiert52. Auf jeden Fall haben die Schimpansen

gelernt eine Beziehung zwischen den Symbolen und ihren Referenten in der Welt

herzustellen, aber inwieweit sie auch erlernt haben, weitere Beziehungen zwischen den

Symbolen herzustellen, ist zumindest fraglich.

49 Savage-Rumbaugh,E.S./Murphy,J./Sevcik,A./Brakke,K.E./Williams,S./Rumbaugh,D., 1993. Language comprehension in ape and child. Monographs of the Society for Research in Child Development no. 233, 58: 3-4 50 Greenfield,P.M./Savage-Rumbaugh,E.S., 1993. Comparing communicative competence in child and chimp: The pragmatics. J. of Child Language 20: 1-26 51 Savage-Rumbaugh,E.S./Lewin,R., 1994. Kanzi: The Ape at the Brink of the Human Mind. New York 52 Seidenberg,M.S./Petitto,L.A., 1987. Communication, symbolic communication, and language: Comment on Savage-Rumbaugh, Macdonald,Sevcik,Hopkis, and Rubert (1986). J. of Experimental Psychology: General 116: 279-287; Savage-Rumbaugh, E.S., 1987. Communication, symbolic communication , and language: A reply to Seidenberg and Petitto. J. of Experimental Psychology: General 116: 288-292

53

Einen weiteren Aspekt hinsichtlich Untersuchung der sprachlichen Fähigkeiten der Affen

stellen ihre syntaktischen Fähigkeiten dar. Läßt es sich nachweisen, daß die untersuchten

Affen die erlernten Symbole in einer ähnlichen auf Regeln basierenden Weise mit einander

verbinden, wie es in der Syntax der menschlichen Sprache erfolgt? Schließlich ist der Mensch

in der Lage aufgrund einer beschränkten Anzahl von Regeln eine potentiell unendliche

Anzahl von Sätzen zu erzeugen. Weiters kommt noch hinzu, dass für den Menschen

erkennbar ist, daß Sätze wie a) „Die Katze kratzt den Hund.“ und b) „Der Hund wird von der

Katze gekratzt.“ in einer Beziehung zu einander stehen, oder daß c) „Der Hund beißt den

Briefträger.“ dieselbe Struktur wie a) hat. Die o.e. Untersuchungen weisen allerdings nicht

darauf hin, daß die Versuchstiere eine entsprechende syntaktische Kompetenz entwickelt

hatten, wie sich auch bei Kanzi, dem Bonobo mit den wohl erstaunlichsten Leistungen, zeigt,

dessen eine Entwicklung im produktiven Bereich ca. dem eines 1-11/2jährigen Kindes

entsprechen soll.

Einleitend wurde bereits darauf hingewiesen, daß es das Erkennen der anatomischen und

neuronalen Einschränkungen war, das dazu führte, daß die Versuche den Menschaffen

Sprechen beizubringen nicht mehr fortgeführt wurden. Zieht man also auch den

neuroanatomischen Aspekt in Betracht, wozu auch gehört, daß die Größe des Gehirns der

Schimpansen nur etwa 1/3 der Größe des menschlichen ausmacht, so sollte man sich

überlegen, ob die Frage „Können Menschenaffen eine/die menschliche Sprache erwerben?“

eigentlich richtig gestellt ist. Vielleicht wäre es besser zu formulieren: „Welche Aspekte der

menschlichen Sprache können die Menschenaffen erwerben?“

54

4 Sprachproduktion

4.1 Allgemeines

In diesem Abschnitt wollen wir uns mit der Produktion von Sprache beschäftigen. Dabei

sollen – zumindest in diesem Rahmen – die Aktivitäten im Mittelpunkt stehen, die zur

Produktion von gesprochener Sprache führen. Gleich zu Beginn gilt es anzumerken, daß es

wesentlich weniger Untersuchungsmaterial zu diesem Thema gibt als zur Perzeption und zum

Verständnis von Sprechen und Sprache. Diese Unausgewogenheit hängt damit zusammen,

daß es deutlich schwieriger ist den Input für Experimente zur Produktion zu kontrollieren als

etwa den Input für entsprechende Experiment zum Sprachverstehen. So läßt sich z.B. bei

Worterkennungsexperimenten relativ leicht die Häufigkeit, die Bildhaftigkeit, bzw. weitere

wichtig erscheinende Aspekte der verwendeten Wörter kontrollieren. Der der Produktion

zugrunde liegende Inhalt – die Gedanken – sind wesentlich schwieriger experimentell zu

kontrollieren.

Beim Prozeß der Sprachproduktion lassen sich verschiedene, große Bereiche unterscheiden,

wobei allerdings bereits vorher die Entscheidung gefallen sein muß, daß der Sprecher etwas

sagen möchte, wo und wann er seinen Beitrag in die Kommunikation einbringen möchte und

auch an wen (bei mehreren Kommunikationsteilnehmern) er ihn richten möchte:

Der Sprecher muß sich im klaren darüber sein, worüber er sich äußern möchte, und

wie er sich darüber äußern möchte: Will er erzählen, berichten, argumentieren oder

will er zu einer Handlung auffordern? Dieses Ergebnis der Planung der

Kommunikation wird als Quaestio bezeichnet53.

In einem nächsten Schritt muß ausgewählt werden, welche Teile des für die Äußerung

gewählten Themas auch tatsächlich geäußert werden sollen und welche nicht. Die zu

äußernde Information muß in entsprechende Einzelteile zerlegt werden und diese

müssen in eine passende Reihenfolge gebracht werden. Diese Aktivitäten werden auch

55

als Makroplanung bezeichnet. Den nächsten Schritt bildet die sogenannte

Mikroplanung. In diesem Stadium werden die einzelnen Teile der Makroplanung noch

„verfeinert“, indem die einzelnen Teile und Aspekte des zu äußernden Sachverhalts

eingebracht werden, d.h. es geht um die beteiligten Personen und Objekte, ihre

räumlichen und zeitlichen Beziehungen zu einander sowie ihre räumliche und zeitliche

Einordnung in die Diskurswelt; weiters wird auch die Modalität der Äußerung –

faktisch, möglich oder notwendig – festgelegt.

Die Planungsprozesse auf der Makro- und Mikroebene werden zusammengefaßt als

Konzeptualisierung („conceptualization“). Der Output dieser Ebenen bzw. der

Konzeptualisierung ist die sog. Message – eine begriffliche Struktur54.

Den nächsten Schritt bilden nun die sog. Formulierungsprozesse („formulation“ s.

Fn.53). Durch diese Prozesse wird die konzeptuelle Repräsentation – die „message“ –

in die entsprechenden sprachlichen Formen „übersetzt“. Bei den

Formulierungsprozessen lassen sich zwei Hauptkomponenten unterscheiden: die

Lexikalisierung („lexicalization“) und die syntaktische Planung („syntactic planning“).

Damit werden einerseits diejenigen lexikalischen Einheiten ausgewählt, die den

jeweiligen konzeptuellen Repräsentationen entsprechen, und andererseits die

syntaktische Struktur(en) ausformuliert, um so der Bedeutung der „message“ zu

entsprechen. In weiterer Folge müssen Prozesse angenommen werden, die die

aufgrund der Lexikalisierung und syntaktischen Planung entstandenen syntaktische

Struktur in die entsprechende phonologische Form bringen, und damit die Basis für

die Artikulation schaffen.

Die abschließenden Prozesse bestehen nun in der Umsetzung des durch die

Formulierungsprozesse geschaffenen phonetischen Plans in die entsprechenden

53 Diese Bezeichnung erfolgt in Anlehnung an die antike Rhetorik (vgl. Stutterheim,C. von, 1997. Einige Prinzipien des Textaufbaus: Empirische Untersuchungen zur Produktion mündlicher Texte. Tübingen

56

artikulatorischen Muster und der dadurch möglichen Steuerung der

Artikulationsorgane.

Wenn man von diesen Inhalten der sprachlichen Produktion ausgeht, können die

beteiligten Prozesse so zusammengefasst werden (s. Abb. 2055):

Soweit eine kurze inhaltliche Zusammenfassung des sprachlichen Produktionssystems wie

es entsprechend der sogenannten autonomen Theorie56 angenommen wird. Dieses System

wird allerdings noch etwas komplizierter, wenn man nämlich bedenkt, daß ein Sprecher

sich auch korrigieren kann, wenn er erkennt, daß das, was er gerade sagt oder sagen will,

formal oder inhaltlich als nicht passend angesehen wird. D.h. es muß ein System geben,

das die konkrete Äußerung bzw. auch die noch im Stadium der Planung stehenden

Äußerungsteile überwacht und mit der intendierten Äußerung vergleicht. Ein solches

System wird als Monitor bezeichnet. Um seinen Zweck zu erfüllen muß der Monitor nicht

nur Information über die geplante Äußerung („message“) haben, sondern er muß auch

Zugang zu dem haben, was produziert wurde, dies erfolgt über das

Sprachverständnissystem des Sprechers. Bezüglich des Eingreifens des Monitors wird

angenommen57, daß es zwei Stellen gibt, an denen der Produktionsablauf kontrolliert

wird: Einmal auf der Ebene, auf der die bereits in Silben gegliederte Kette von

phonologischen Segmenten vorhanden ist – d.h. im Bereich der phonologischen

Kodierung und die zweite Stelle ist dann die bereits produzierte, hörbare Äußerung. Somit

läßt sich das Sprachproduktionssystem in seiner funktionalen Gliederung wie folgt

darstellen (s. Abb. 2158):

54 Zu diesen und folgenden den Begriffen und ihrer Verwendung vgl.: Levelt, W.J.M., 1989. Speaking: From Intention to Articulation. Cambridge, MA 55 Dietrich,R., 2002. Psycholinguistik. Stuttgart, Weimar: p. 124 56 Levelt, W.J.M./Roelofs, A./Meyer, A.S., 1999. A theory of lexical access in speech production. Behavioral and Brain Sciences 22: 1-75 57 s. Fn. 53 58 Nach Indefry,P./Levelt,W.J.M., 2000. The neuronal correlates of language production. In: Gazzaniga,M.S. (ed.), The New Cognitive Neurosciences. Cambridge, MA: 845-865

57

4.2 Von der „Message“ zur Äußerung

Im folgenden wollen wir uns genauer mit den Prozessen bei der Sprachproduktion

befassen, wobei wir uns allerdings auf jene Bereiche beschränken werden, die im o.e.

Modell als Formulierungsprozesse bezeichnet werden. Dies erfolgt nicht zuletzt auch

deswegen, weil unsere Kenntnisse über die Planung der Kommunikation und vor allem

über die Konzeptualisierung doch noch recht lückenhaft sind. Dies zeigt sich auch darin,

daß die verschiedenen Hypothesen zu diesen Stadien der Sprachproduktion deutliche

Unterschiede aufweisen.

Bei der Umformung der Message in ein hörbares Signal greift der Sprecher auf sein

lexikalisches und grammatisches Wissen zurück. Aufgrund seines lexikalischen Wissens

kann er mit einem Konzept der Message ein entsprechendes Wort verbinden, das dieses

Konzept ausdrückt. Dieser Prozeß wird als lexikalischer Zugriff (lexical access)

bezeichnet. Man geht davon aus, daß dieser Zugriff zwei Stufen umfaßt, einen

sogenannten Lemmazugriff und einen Lexemzugriff. Mit dem Begriff Lemma ist jene

Repräsentationsebene eines Wortes gemeint, die zwischen seiner semantischen und seiner

phonologischen Repräsentation liegt; d.h. das Wort ist syntaktisch spezifiziert, das

bedeutet, hier sind die Wortklasse, das Genus, und auch die Anforderungen an die

syntaktische Umgebung gespeichert. Das Lexem ist nun die phonologische Wortform, d.h.

es handelt sich um eine Art von Speicherung, bei der die Laute repräsentiert sind. Im

Rahmen der syntaktischen Kodierung greift der Sprecher auf sein syntaktisches Wissen

zurück, um die Wörter und grammatischen Bestandteile des Satzes miteinander zu

verknüpfen und in die entsprechende Abfolge zu bringen. Das phonologische Wissen, das

das Wissen über die lautlichen Eigenschaften der sprachlichen Elemente beinhaltet,

ermöglicht die Erzeugung einer phonetischen Kette, die die Informationen für die

Steuerung der Sprechmotorik enthält. Dieser Prozeß wird als phonologische Kodierung

bezeichnet.

58

Das o.e. autonome Modell ist wohl das am detailliertesten ausgearbeitete und in den

späteren Versionen59 werden die drei Verarbeitungsstufen zwei verschiedenen Systemen

zugeordnet: Das semantisch-syntaktische System besteht aus dem Konzeptualisator und

der grammatischen (eigentlich syntaktischen) Enkodierung und das phonologisch-

phonetische System führt die morphophonologische Enkodierung und die Arbeit des

Artikulators durch (s. Abb.21).

Zu beachten ist bei diesem Modell, daß die postulierten Systeme von einander unabhängig

arbeiten und der Ablauf der Verarbeitung erfolgt von oben nach unten (top – down) – von

der oberen Ebene zur nächsten niedrigeren. Wichtig ist auch, daß die Verarbeitung

inkrementell erfolgt (s.u.), d.h. die Verarbeitung einer Äußerung erfolgt stückweise und

wenn nun ein Stück auf einer Ebene vollständig verarbeitet ist, d.h. es enthält alle

Informationen, die auf der nächsten Ebene für seine Verarbeitung notwendig sind, wird es

an diese Ebene weitergereicht. Somit erstellt der Konzeptualisator die Message stückweise

und gibt sein fertiges Stück an die syntaktische Kodierung weiter und diese gibt ihr

fertiges Stück an die phonologische Kodierung weiter und diese ihr fertiges Stück an die

Artikulation. Schematisch läßt sich dies vereinfacht so darstellen:

Konzeptualisator

Formulator

Artikulator

Zeit

59 vgl. Indefrey,P./Levelt, W.J.M., 2000. s. Fn58

59

Das bedeutet, daß auf den einzelnen Ebenen jeweils bereits am nächsten Stück der

Äußerung gearbeitet wird, während die darunterliegende Ebene noch das sozusagen

„zurückliegende“ Stück bearbeitet.

Es stellt sich nun die Frage, wie die einzelnen Prozesse – der lexikalische Zugriff, die

syntaktische und die phonologische Kodierung – ablaufen und wie groß der Teil der

Äußerung ist, der in einem Schritt verarbeitet wird. Da diese Vorgänge nicht direkt

beobachtbar sind, ist es notwendig, im Output des Produktionsprozesses nach

Anhaltspunkten zu suchen, die Rückschlüsse auf die einzelnen Prozesse erlauben. Dies

erfolgt etwa durch die Untersuchung von Pausen im Sprechvorgang, durch die

Untersuchung der Struktur von Produktionsfehlern – also von Versprechern bzw. auch der

Produktionen von Patienten mit Sprachstörungen – aufgrund von Reaktionszeitmessungen

in entsprechenden Testsituationen, aber auch aufgrund von Untersuchungen von

meßbaren und beobachtbaren Vorgängen im Gehirn (EEG und (f)MRI). Im folgenden

wollen wir uns nun einige Untersuchungen näher ansehen.

Bei den im Sprechen beobachtbaren Verzögerungsphänomenen können wir zwischen

gefüllten Verzögerungen und ungefüllten Pausen unterscheiden. Bei den gefüllten

Verzögerungen kann es sich um gefüllte Pausen (mit „ah“, „hm“ usw.), Wiederholungen,

einem Neubeginn oder auch um Einschübe, wie „also“, „dann“, „ich meine“, „ich glaube“,

usw., handeln. Die ungefüllten Pausen sind leichter zu entdecken und ihre Dauer kann

auch gemessen werden. So hat Goldmann-Eisler (196860) die Verteilung von ungefüllten

Pausen (Länge 200 oder 250 ms) untersucht. Dabei zeigte sich, daß solche Pausen eher

vor unerwarteten (im Kontext weniger vorhersagbaren) Wörtern auftraten Da

„Erwartbarkeit“ verschiedenes beinhalten kann, wie z.B. Worthäufigkeit oder

Bekanntheit, wurde die „Erwartbarkeit“ auch unabhängig gemessen, etwa durch das

60 Goldmann-Eisler, F., 1968. Psycholinguistics: Experiments in spontaneous speech. London

60

Ausfüllen von Lücken mit diesen Wörtern, wobei die Dauer dafür gemessen wurde61. Es

stellte sich ebenfalls heraus, daß die Pausen vor grammatischen Wörtern wie Hilfsverben,

Artikeln, Präpositionen usw. kürzer sind als die Pausen vor Inhaltswörtern. Es wird

angenommen, daß diese Pausen vor weniger erwartbaren Wörtern einem vorübergehenden

Problem beim lexikalischen Zugang entsprechen. Wir kennen zwar die Bedeutung des

Wortes, aber wir können nicht sofort die Lautkette abrufen.

Goldmann-Eisler ging auch davon aus, daß wir während mancher Pausen den Inhalt

dessen planen, was wir gerade sagen wollen. Sie stellte nämlich fest, daß die

Schwierigkeit der Aufgabe die Zahl der Pausen, die ein Sprecher macht beeinflußt (z.B.

die Interpretation eines Cartoons vs. seiner Beschreibung). So führt die schwierigere

Aufgabe zu mehr Pausen im Sprechen.

Kommt es nun in den Pausen zu semantischen oder syntaktischen Planungsvorgängen?

Goldmann-Eisler (1968) meinte, daß die Pausendauer von der syntaktischen Komplexität

der Äußerungen nicht beeinflußt wird und schloß daraus, daß es sich primär um

semantische Planung handelt. Allerdings stellt sich auch hier die Frage danach, was unter

syntaktischer Komplexität zu verstehen ist und wie sie gemessen werden soll. Es ist zur

Zeit nicht ganz auszuschließen, daß die Pausen auf sowohl auf eine semantische Planung

als auch auf eine syntaktische Planung hinwiesen.

Bezüglich der zeitlichen Abfolge der Planung der Sprachproduktion wurde vorgeschlagen,

daß dies in sogenannten kognitiven Zyklen („cognitive cycles“) erfolgt62. Dies zeige sich

darin, daß sich beim Sprechen Phasen mit starken Verzögerungen mit Phasen flüssigen

Sprechens abwechseln. Dabei lassen sich in den Phasen mit den Verzögerungen auch

mehr gefüllte Pausen und mehr Neuanfänge beobachten als in den Phasen flüssigen

61 Butterworth, B., 1980. Evidence from pauses in speech. In: Butterworth,B. (ed.) Language Production Vol. I: Speech and Talk. New York: 155-176 62 Henderson, A./Goldman-Eisler, F./Skarbek, A., 1966. Sequential temporal patterns in speech. Language and Speech 8: 236-242

61

Sprechens. Daraus könnte man schließen, daß wir in den flüssigen Phasen das

produzieren, was wir in den vorausgehenden verzögerten Phasen geplant haben.

Es hat sich auch gezeigt63, daß die das Sprechen begleitende Gestik ebenfalls von der

jeweiligen Phase des Sprechens abhängig ist. Die Sprecher neigen dazu, in den

Verzögerungsphasen Gesten zu verwenden, die das Gesagte unterstreichen oder betonen

sollen (also: Gesten ähnlich dem Dirigieren mit einem Taktstock). In den flüssigen Phasen

hingegen lassen sich eher „ikonische“ Gesten feststellen, also Gesten, die den mit den

ausgedrückten Objekten oder Handlungen in Beziehung stehen (z.B. „anrufen“ oder

„telefonieren“ wird von einer entsprechenden Geste begleitet).

Diese Beobachtungen, daß mehrere Phänomene gemeinsam in diesen

Verzögerungsphasen auftreten, scheinen auf eine gewisse psychologische Realität dieser

Planungszyklen hinzuweisen. Allerdings sollte nicht außer acht gelassen werden, daß mit

diesen Analysen der Verzögerungsphänomene auch eine Anzahl von Problemen

einhergehen. Zum einen können die Pausen durchaus mehrere Funktionen erfüllen. So ist

es vorstellbar, daß Sprecher die Pausen (un-)bewußt setzen, um so dem Hörer das

Verstehen zu erleichtern, und zwar etwa in Bezug auf die Segmentierung der sprachlichen

Ketten. Wenn wir daran denken, daß der Sprecher in einem Diskurs auch den jeweiligen

Stand des Hörers in Hinblick auf die Vermittlung des Inhalts „im Auge hat“, so könnten

Pausen auch die Anforderungen des Diskursinhalts widerspiegeln. Weiters besteht auch

die Möglichkeit, daß den verschiedene Pausenlängen unterschiedliche Ursachen zugrunde

liegen. So nahm Goldmann-Eisler an, daß sogenannte Mikropausen – Pausen kürzer als

250 ms – eher artikulatorische Schwierigkeiten als Planungsprobleme widerspiegeln.

(Allerdings wird diese Ansicht auch in Frage gestellt64.) Außerdem hat sich herausgestellt,

daß es zwischen den verschiedenen Verzögerungsphänomenen zu einem Austausch

63 Beattie, G.W., 1983. Talk: An analysis of speech and non-verbal behaviour in conversation. Milton Keynes UK: Open Univ. Press

62

kommen kann. So hat sich gezeigt65, daß in Fällen, in denen die Sprecher veranlaßt

wurden, keine langen (mehr als 600ms) Pausen zu machen, die Zahl ihrer Pausen zwar

zurückging, dafür aber die Zahl der Wiederholungen anstieg.

Dieser „Abtausch“ von spezifischen Verzögerungsphänomenen scheint doch darauf

hinzuweisen, daß zu diesen Zeitpunkten Planungsaktivitäten vorliegen, doch worum es

sich im Konkreten handelt, ist keineswegs klar. War man ursprünglich davon

ausgegangen, daß es sich dabei um semantische Planung handelt, so ist dies keineswegs so

eindeutig festzulegen. Es könnte sein, daß es zu Konflikten zwischen dem Planen von

Propositionen und dem semantischen und syntaktischen Planen von Teilen der Äußerung

kommt (vgl. Levelt, 198952). D.h. wenn der Sprecher zuviel Zeit für die propositionale

Planung benötigt, bleibt zu wenig Zeit (und Speicher ?) für die weitere Planung, was zu

einer Zunahme von Pausen, Abnahme der Sprechgeschwindigkeit und Wiederholung von

bereits geäußerten Phrasen führt.

Der lexikalische Zugriff ist jene Phase in der Produktion von gesprochener Sprache, in der

wir die semantischen Repräsentationen (die Bedeutungen) der Inhaltswörter in ihre

phonologischen Repräsentationen (die Lautketten) überführen. Somit stellt sich die Frage,

wie erfolgt diese „Übersetzung“? Eingangs wurde bereits darauf hingewiesen, daß

angenommen wird, daß der lexikalische Zugriff in zwei Stufen erfolgt. Wenn wir ein Wort

produzieren, dann gehen wir von der semantischen Ebene zunächst zu einer

Zwischenebene, auf der die einzelnen Wörter in Form von Lemmata repräsentiert sind.

Wie bereits o.e. sind die Lemmata syntaktisch spezifiziert, d.h. die grammatikalischen

Eigenschaften (Kategorie, Genus usw.) eines jeden Wortes sind auf dieser Ebene

gespeichert. Die Wahl des Lemmas wird als „lexical selection“ bezeichnet (s. Abb. 20 u.

21).

64 Hieke, A.E./Kowal, S.H./O’Connell, D.C., 1983. The problem with “articulatory” pauses. Language and Speech 26: 203-214

63

Im nächsten Schritt – der phonologischen Enkodierung – werden die phonologischen

Formen der Wörter abgerufen. Wie bereits erwähnt wird dieses erste Stadium als

Lemmazugriff und das zweite als Lexemzugriff bezeichnet. Für diese Annahme eines

solchen zweistufigen Modells finden wir einiges an Unterstützung.

So lassen sich etwa im Bereich der Untersuchungen von Versprechern zwei Arten

beobachten, bei denen ganze Wörter vertauscht werden66: semantische Ersetzungen wie

z.B. „wife“ statt „husband“ bzw. sogenannte „Malapropismen“67 wie z.B. „equivocal“

statt „equivalent“ oder „hysterical“ statt „historical“.

Man kann dies nun so interpretieren, daß diese Arten von Wortsubstitutionen darauf

hinweisen, daß sowohl bei der Wortproduktion als auch beim Wortverständnis dasselbe

Lexikon verwendet wird – aber in unterschiedlicher Richtung. Für das Erkennen der

Wörter sind die lexikalischen Elemente phonologisch angeordnet, d.h. ähnlich klingende

Wörter sind näher beisammen (wie „hysterical“ und „historical“). Der Zugang zum

Lexikon erfolgt nun, indem ein Netzwerk durchlaufen wird. Die semantischen Fehler

passieren nun, wenn ein „falscher“ Weg eingeschlagen wird – eine falsche Entscheidung

getroffen wird („wife“ statt „husband“) – und zum phonologischen Fehler kommt es,

wenn schließlich die phonologische Form gewählt wird. In Butterworth (198268) finden

wir eine Variante dieses Modells, wobei in diesem Modell zuerst ein Eintrag im

semantischen Lexikon gewählt wird, der wiederum einen „Zeiger“ besitzt, der auf den

entsprechenden Eintrag in einem separaten phonologischen Lexikon verweist.

Entsprechend solchen Zwei-Stufen Modellen erfolgen semantische bzw. phonologische

Substitutionen auf unterschiedlichen Ebenen.

65 Beattie, G.W./Bradbury, R.J., 1979. An experimental investigation of the modifiability of the temporal structure of spontaneous speech. J. of Psycholinguistic Research 8: 225-247 66 Fay, D./Cutler, A., 1977. Malapropisms and the structure of the mental lexicon. Linguistic Inquiry 8: 505-520 67 Diese Bezeichnung leitet sich von einer Figur aus dem Stück „The Rivals“ von Richard Brinsley Sheridan her, nämlich Mrs. Malaprop, die eine Vorliebe für schwierige Fremdwörter hat, diese aber falsch verwendet, z.B. „epitaphs“ statt „epithets“ oder „reprehend“ statt „apprehend“. 68 Butterworth, B., 1982. Speech errors: Old data in search of new theories. In: Cutler, A. (ed.), Slips of the tongue and language production. Amsterdam: 73-108

64

Abgesehen von der Untersuchung der Struktur von Versprechern gibt es auch

experimentelle Untersuchungen, die auf eine zweistufigen Lexikonzugriff hinweisen.

Viele dieser Experimente wurden im Rahmen des „Nimwegener Modells“ der

Sprachproduktion (s. Levelt 198952) durchgeführt. Bei den meisten Untersuchungen

handelt es sich um Reaktionszeitstudien und Objektbenennungsaufgaben, die die

Annahme einer ersten Phase der frühen semantischen Aktivierung bei der lexikalischen

Wahl („lexical selection“) und einer späteren Phase der phonologischen Aktivierung im

Rahmen der phonologischen Enkodierung unterstützen. In Bild-Wort Interferenzstudien69

wurde festgestellt, daß im frühen Stadium Wörter ihre semantischen Nachbarn

beeinflussen, dagegen in einem späteren Stadium ihre phonologischen Nachbarn. D.h. es

wurde im frühen Stadium ein semantischer Primingeffekt beobachtet, später dagegen ein

phonologischer. Diese Ergebnisse weisen darauf hin, daß es ein frühes Stadium gibt, in

dem semantische Kandidaten aktiv sind – das Lemmastadium – und ein späteres, in dem

phonologische Einheiten aktiv sind.

(Kurz zur Beschreibung solcher Tests: Den Ausgangspunkt bildet die Überlegung, daß

wenn man ein Wort wie „Schaf“ sagt, dies das Erkennen eines anderen Wortes wie z.B.

„Ziege“ erleichtert (semantischer Primingeffekt), wenn nämlich das andere Wort in einer

semantischen Beziehung zum zuerst genannten steht. Es stellt sich die Frage, ob nun

„Ziege“ seinerseits das Erkennen von phonologischen Nachbarn, wie z.B. „Wiege“

erleichtert. Die Vpn. hatten nun folgende Aufgabe: Es wurden ihnen einfache Objektbilder

(z.B. Schaf) gezeigt und sie mußten diese Objekte so schnell wie möglich benennen. Das

dauert üblicherweise ca. 500 – 800 ms. Beim Betrachten eines Bildes oder Objekts werden

die ersten 150 ms für die visuelle Verarbeitung und die Aktivierung des entsprechenden

Konzepts verwendet. Danach dauert es ca. 125 ms, um das entsprechende Lemma zu

69 Levelt, W.J.M./Schriefers, H./Vorberg, D./Meyer,A.S./Pechmann, T./Havinga, J., 1991. The time course of lexical access in speech production: A study of picture naming. Psychological review 98: 122-142; Schriefers,

65

aktivieren. Die phonologische Enkodierung beginnt nach ca. 275 ms und die tatsächliche

Äußerung beginnt nach ca. 600 ms. Im Zeitraum zwischen der Bildpräsentation und dem

Benennen wurde den Vpn. über Kopfhörer ein Wort wie z.B. „Wiege“ eingespielt. Die

Vpn. mußten nun einen Knopf drücken, sobald sie entschieden hatten, ob das gehörte

Wort ein „echtes“ Wort war – also eine auditive lexikalische Entscheidungsaufgabe. Diese

Studien wiesen die o.e. Ergebnisse auf.)

Eine weitere Untersuchung, die das Zwei-Stufen Modell stützt, bediente sich elektro-

physiologischer Daten70. Wie bekannt benötigen kognitive Prozesse nicht nur Zeit,

sondern es lassen sich dabei auch Schwankungen von elektrischer Energie im Gehirn

beobachten. Diese Veränderungen der elektrischen Energie können mit Hilfe von

Elektroden auf der Kopfhaut gemessen und aufgezeichnet werden. Daraus ergibt sich das

Elektroenzephalogramm – EEG. Die verschiedenen kognitiven Aktivitäten lösen auch

entsprechende unterschiedliche Muster der Energieschwankungen aus. Diese

Schwankungsmuster werden als Potentiale bezeichnet. Dies gilt natürlich auch für

sprachliche Aufgaben, wo es zu unterschiedlichen Potentialen kommt, wenn es sich um

die Verarbeitung von z.B. lautlicher oder semantischer Phänomene handelt. Für das im

folgenden dargestellte Experiment ist aber auch wichtig, daß bei der Vorbereitung von

motorischen Reaktionen ebenfalls bestimmte Muster beobachtbar sind.

Bevor wir jedoch darauf näher eingehen, noch ein paar Worte zu den mit sprachlichen

Aktivitäten in Verbindung gebrachten Potentialen71. Grundsätzlich ist festzuhalten, daß

sich die Muster der zu beobachtenden Ströme in ihrer Polarität (plus – minus) und in der

Zeit, in der sie nach dem Auftreten des Ereignisses (Latenz) die maximale Amplitude

H./Meyer, A.S./Levelt, W.J.M., 1990. Exploring the time course of lexical access in language production: Picture-word interference studies. J. of Memory and Language 29: 86-102 70 Turennout, M.I. van/Hagaart, P./Brown, C.M., 1997. Electrophysiological evidence on the time course of semantic, and phonological processes in speech production. J. of Experimental Psychology: Learning, Memory, and Cognition 23: 787-806; dieselben 1998. Brain activity during speaking: From syntax to phonology in 40 milliseconds. Science 280: 572-574 71 S. dazu: Kutas, M./Peten, C.K. van, 1994. Psycholinguistics electrified: event-related brain potential investigations. In: Gernsabcher, M.A. (ed.) Handbook of Psycholinguistics. San Diego etc.: 83-144

66

erreichen, unterscheiden. Diese mit bestimmten Ereignissen in Verbindung gebrachten

Potentiale werden als ERP („event related potentials“) bezeichnet. Aufgrund von

zahlreichen Untersuchungen wurde im Bereich der Forschungen zum Sprachverstehen ein

negatives Potential festgestellt, das über die gesamte Kopfhaut meßbar ist, aber im

parietalen, posterior-temporalen und occpitalen Bereich stärker ausgeprägt ist als im

frontalen. Dieses Potential erreicht seine stärkste Ausprägung im Schnitt 400 ms nach dem

Beginn des Ereignisses, daher die Bezeichnung N 400. Ausgelöst wird dieses Potential

durch eine Verletzung von semantischen Übereinstimmungen („The pizza was too hot to

cry. vs. eat“ s. Abb. 22). Soweit ganz kurz zu einem mit sprachlicher Verarbeitung in

Zusammenhang stehenden Potential. (Mehr dazu s. VO Einf. in die Neuro-

/Patholinguistik)

Nun zurück zum eigentlichen Experiment. Für diese Untersuchung wurde ein nicht auf die

Sprache, sondern auf die Motorik bezogenes Potential genutzt. Dieses negative Potential,

das links und rechts zentral gemessen werden kann, tritt ca. 200 ms vor einer

Muskelaktivität der Finger der rechten oder linken Hand auf. Dieses Potential endet

sobald die Bewegungen der Finger eingesetzt haben. Das Potential ist kontralateral etwas

stärker ausgeprägt als ipsilateral. Wie kann man nun dieses Potential für die Untersuchung

von Sprachproduktion nutzen? Man macht sich dabei eine spezifische Eigenschaft des

lateralen Potentials zunutze: Wenn sich jemand darauf vorbereitet auf ein spezifisches

Ereignis hin einen Finger zu bewegen – z.B. einen Knopf zu drücken – dann baut sich das

Potential nach dem Eintreten des Ereignisses und vor der eigentlichen Bewegung des

Fingers auf. Während dieser Zeit kann bis zu einem bestimmten Zeitpunkt hin, die

Ausführung der eigentlichen Fingerbewegung noch abgebrochen werden. D.h. es entsteht

eine Bereitschaft eine Bewegung auszuführen, was sich in einem sogenannten lateralen

Bereitschaftspotential (LRP – lateralized readyness potential) widerspiegelt. Dieses LRP

ist auch dann vorhanden, wenn die Bewegung doch nicht durchgeführt wird. (Die

67

Berechnung dieses Potentials ist allerdings sehr kompliziert, weil ja alle anderen

Ereignisse im Gehirn, die mit der Bewegungsvorbereitung nichts zu tun haben,

herausgefiltert werden müssen. Außerdem sind individuelle Schwankungen zu

berücksichtigen.)

Im Experiment musste nun ein bildlich dargestelltes farbiges Objekt benannt werden, und

zwar mit einer einfachen Adj-N-Phrase. Diese Aufgabe war mit zwei weiteren Aufgaben

verbunden: einer Klassifikationsaufgabe, die sich entweder auf eine grammatikalische

oder phonologische Eigenschaft des Nomens bezog und mit einer sogenannten go/no-go-

Entscheidung, die auch von einer lexikalischen Eigenschaft des Zielnomens abhängig war.

Die Vpn. hatten nun die Aufgabe die Objekte in Holländisch zu beschreiben, wobei

manchmal nach 150 ms ein Rahmen um das Objekt erschien, was bedeutete, daß vor der

Bezeichnung noch eine Klassifikationsaufgabe durchzuführen war. Diese sah so aus:

Wenn es sich beim Zielwort um ein Wort mit allgemeinen Genus („common gender“)

handelte, was im Holländischen durch den Artikel „de“ ausgedrückt wird, sollte mit der

linken Hand ein Knopf gedrückt werden; handelte es sich dagegen um ein Wort mit

neutralem Genus (erhält den Artikel „het“), dann sollte mit der rechten Hand ein anderer

Knopf gedrückt werden. Allerdings war die Ausführung der Bewegung an eine weitere

Bedingung geknüpft: In diesem Fall handelte es sich um eine phonologische, denn wenn

es sich um ein Wort handelte, das mit [b] begann, sollte die Bewegung ausgeführt werden

(= go Bedingung); begann das Wort aber mit [s], sollte die Bewegung nicht ausgeführt

werden (= no-go Bedingung). Danach verschwand das Bild und es sollte die Benennung

erfolgen. Gemessen wurde nun das laterale Bereitschaftspotential – wenn eines auftrat.

Unter einer zweiten Bedingung wurden nun die beiden Entscheidungsaufgaben vertauscht.

D.h. die [b]/[s]-Entscheidung bestimmte die Hand – links oder rechts – und das Genus

(„de“ oder „het“) die go/no-go-Entscheidung. Wieder wurde das LRP gemessen.

68

Die Ergebnisse zeigten, daß unter der ersten Bedingung (Genus = Hand, Laut = go/no-go)

immer ein LRP auftrat. Dagegen traten unter der zweiten Bedingung (Laut = Hand, Genus

= go/no-go) in den no-go-Situationen kein LRP auf, wohl aber in den go-Situationen.

Diese Verteilung der LRPs wird nun so interpretiert, daß, wenn zuerst das Genus zu

beurteilen war, sich ein LRP aufbaute, auch wenn die Bewegung nicht durchgeführt

wurde. Mußte aber zuerst die Lautung beurteilt werden, dann war offensichtlich die no-go

Entscheidung bereits getroffen, bevor noch die Entscheidung hinsichtlich der linken oder

rechten Hand getroffen werden mußte. Dies würde bedeuten, daß die Entscheidung über

das Genus bereits vorher erfolgt ist. Diese Ergebnisse würden also auf eine zeitliche

Reihenfolge im Zugriff auf das Lemma und Lexem hinweisen. D.h. es wird zuerst auf die

grammatikalischen Eigenschaften zugegriffen und danach erst auf die phonologischen –

allerdings ist die zeitliche Differenz zwischen den beiden Zugriffen recht kurz, nämlich

ca. 40 ms.

Obwohl dieses Zwei-Stufen-Modell mehrheitlich akzeptiert wird, gibt es auch kritische

Stellungnahmen72 dazu. So könnte man aus den Ergebnissen der Untersuchungen, die das

Zwei-Stufen-Modell stützen, auch herauslesen, daß eigentlich nur eine Unterscheidung

zwischen einer semantischen und einer phonologischen Ebene ausreicht und daß die

Annahme einer Lemma-Ebene nicht notwendig ist. Dazu ist anzumerken, daß

ursprünglich das Lemma definiert wurde als aus der Bedeutung und den

grammatikalischen Merkmalen bestehend73. Als Unterstützung des Modells des

zweistufigen Zugriffs wurde auch angeführt, daß im TOT-Stadium das Genus des

gesuchten Wortes abgerufen werden kann. Allerdings wird auch dieses Ergebnis in letzter

Zeit stärker diskutiert. Denn es sollte nicht möglich sein, phonologische Information

72 Caramazza, A., 1997. How many levels of processing are there in lexical access? Cognitive Neuropsychology 14: 177-208; Caramazza, A./Miozzo, M., 1997. The relation between syntactic and phonological knowledge in lexical access: Evidence from the “tip-of-the-tongue” phenomenon. Cognition 64: 309-343; Caramazza, A./Miozzo, M., 1998. More is not always better: A response to Roelofs, Meyer, and Levelt. Cognition 69: 231-

69

abzurufen, ohne vorher grammatikalische Information, wie eben Genus, abgerufen zu

haben. Untersuchungen zum TOT-Phänomen (Caramazza/Miozzo, 1997;

Miozzo/Caramazza, 1997, s. Fn.72) scheinen aber darauf hinzuweisen, daß die

phonologische und die grammatikalische Information unabhängig sind, denn Sprecher des

Italienischen können manchmal Teile der phonologischen Information abrufen, auch wenn

sie nicht in der Lage sind, das Genus des gesuchten Wortes abzurufen und umgekehrt. In

diesem Sinne sind die Lemmata für Caramazza (1997 s. Fn.72) nur eine unnötige

Verkomplizierung und er läßt sie in seinem Modell weg (s. Abb. 23). Er schlägt vor, daß

der lexikalische Zugang bei Sprachproduktion die Interaktion eines semantischen

Netzwerks, eines syntaktischen Netzwerks und der phonologischen Formen benötigt. Die

semantischen Repräsentationen aktivieren sowohl die entsprechenden Knoten im

syntaktischen Netzwerk als auch im phonologischen Netzwerk.

Die wichtigsten Annahmen dieses Modells sind:

aufgrund der konzeptuell-semantischen Repräsentationen werden gleichzeitig die

Wortformen (Lexeme) von semantisch ähnlichen Wörtern aktiviert;

die konzeptuell-semantischen Repräsentationen aktivieren zugleich mit den

Wortformen auch jene syntaktischen Merkmale, die eine semantische Basis

besitzen (z.B. Tempus des Verbs);

die Lexeme aktivieren auch die assoziierten lexikalisch-syntaktischen Merkmale

(z.B. Genus eines Nomens);

die Lexeme aktivieren auch die assoziierten phonologischen Segmente und andere

phonologische Information wie die Silbenstruktur des Wortes;

die Aktivierung erfolgt unidirektional kaskadierend.

241; Miozzo, M./Caramazza, A., 1997. Retrieval of lexical-syntactic features in the tip-of-the-tongue states. J. of Experimental Psychology: Learning, Memory, and Cognition 23: 1410-1423 73 vgl. dazu: Aitchison, J., 1994. Words in the mind: An introduction to the mental lexicon. Oxford

70

Kaskadierend bedeutet, daß – im Gegensatz zu den seriellen Modellen, wo die phonologische

Kodierung erst nach der Aktivierung des Lemmas erfolgt – bereits bei der Aktivierung eines

Lemmas/Lexems eine gewisse Aktivierung der dazu gehörenden Wortform erfolgt; d.h., daß

mehrere Wortformen aktiv sind.

Caramazza et al. weisen darauf hin, daß in diesem Modell die lexikalisch-syntaktischen

Eigenschaften und die phonologischen Segmente eines Wortes unabhängig von einander

abgerufen werden können.

Wenn auch die Mehrzahl der Forscher dem Zwei-Stufen-Modell den Vorzug gibt, so ist

dennoch nicht auszuschließen, daß diesem einstufigen Modell eine gewisse Plausibilität

zukommt. Allerdings ist derzeit wohl noch nicht möglich, weitergehende Aussagen zu

diesem Modell zu machen.

Phonologische Kodierung

Die phonologische Kodierung soll nun die entsprechende Lautkette erzeugen. Den Input

für die phonologische Kodierung bildet das Ergebnis der syntaktischen Kodierung und des

lexikalischen Zugriffs. Im oben dargestellten Modell (s. Fn. 55) wird diese Struktur als

Oberflächenstruktur bezeichnet, die die Lemmata und die Spezifizierung ihrer Funktionen

und die syntaktische Gliederung enthält. Das im Zusammenhang mit diesem Modell

vorgeschlagene Modell der phonologischen Kodierung ist das sogenannte WEAVER++

Modell74. Dabei wird davon ausgegangen, daß – wie bereits oben erwähnt – Konzepte die

entsprechenden Lemmata aktivieren, indem die Aktivierung sich im Netzwerk ausbreitet.

Als Beispiel möge das von Levelt et al. gewählte dienen75 (s. Abb. 24). In diesem Fall

breitet sich die Aktivierung vom aktiven lexikalischen Konzept zum Lemmaknoten aus.

Durch die Wahl des Lemmas werden auch seine syntaktischen Eigenschaften greifbar,

74 s. Levelt at al., 1999: Fn. 53 (WEAVER = Word-form Encoding by Activaton and VERification; Computermodell ) 75 Levelt et al., 1999 : 4

71

d.h. im Fall von „escort“, daß es sich um transitives Verb mit zwei Argumentpositionen

handelt. Nun besitzen viele Lemmata sogenannte diakritische Parameter, die

entsprechend gesetzt werden müssen (s. bei „escort“: Tempus, Person, Modus, Aspekt –

Verblemma im Englischen). Aufgrund der Werte der diakritischen Merkmale kann es zu

verschiedenen phonologischen Realisierungen kommen wie „escorts“, „escorted“ usw.

Ein Teil der Werte dieser diakritischen Merkmale ergibt sich aus der konzeptuellen

Repräsentation und ein anderer Teil ergibt sich während der grammatikalischen

Kodierung. So leitet sich der Wert für den Numerus beim Verb aus der Übereinstimmung

mit dem Numerus des Subjekts ab.

Nach der Wahl des Lemmas kommt es zum Zugriff auf das entsprechende Lexem. Dies ist

nun der Bereich des phonologisch-phonetischen Systems. Dabei geht es um die

Vorbereitung der entsprechenden artikulatorischen Gesten des gewählten Wortes und

zwar in seinem prosodischen Kontext. Der erste Schritt ist dabei das phonologische

Muster des jeweiligen Wortes aus dem mentalen Lexikon abzurufen. Dieser Zugriff auf

die Wortform beinhaltet die Aktivierung von drei Arten von Information: die

morphologische Struktur des Wortes, seine metrische Form und seine segmentale

Struktur. (Im Beispiel: Das Lemma ist „escort“ und diakritisch markiert bezüglich

Progressive, damit wird im ersten Schritt auf die beiden Morpheme <escort> und <ing>

zugegriffen. Danach werden die segmentalen und metrischen Eigenschaften dieser

Morpheme „ausbuchstabiert“ („spelled out“). Bezüglich „escort“ ergibt die metrische

Information, daß es zweisilbig und endbetont ist, und daß es ein phonologisches Wort76

sein kann. Für <ing> ergibt die metrische Information, daß es sich um einsilbiges,

unbetontes Morphem handelt, das kein unabhängiges phonologisches Wort sein kann, d.h.

es muß mit einem anderen verbunden werden – in diesem Fall mit „escort“.) Die

76 Ein phonologisches oder prosodisches Wort ist der Bereich für die Silbifizierung. Es kann kleiner als ein lexikalisches Wort sein, wie es bei den meisten Komposita ist, oder auch größer, wie im Falle der Klitisierung

72

segmentale Ausbuchstabierung ergibt die entsprechende phonologische Struktur (s. Abb.

24). Auf dieser Ebene gibt es keine Silben, obwohl die Silbenstruktur „e-scort“ ist, ist

diese nicht im mentalen Lexikon gespeichert, denn im vorliegenden Modell wird die

Silbifizierung ( a. Syllabifizierung = Gliederung in Silben) als ein später Prozeß

angesehen. Dies wird damit erklärt, daß die Silbifizierung oft von der phonologischen

Umgebung eines Wortes abhängig ist. So kann die Silbifizierung über Wortgrenzen

hinausgehen, z.B. in: „He’ll escort us.“ > „escor-tus“. Einen ganz wichtigen Bereich

dieses Modells bildet die Darstellung des Prozesses der Silbifizierung. Dabei wird

angenommen, daß die Segmente eines Morphems oder Phoneme simultan verfügbar

werden, aber mit „etikettierten“ Hinweisen bezüglich ihrer Abfolge. Das metrische Muster

des Wortes kann entweder so bleiben wie es ist, oder entsprechend dem Kontext verändert

werden. Wird nun z.B. „escorting“ erzeugt, dann ergeben die „ausbuchstabierten“

metrischen Muster für <escort> ’ und <ing> und diese verbinden sich zu einem

dreisilbigen Muster. Die ausbuchstabierten Muster werden nun nacheinander in die

metrische Schablone eingefügt und bilden die entsprechenden phonologischen Silben „e-

scor-ting“. Dieser Prozeß folgt universellen Regeln der Silbifizierung und auch

sprachspezifischen Regeln. Zur phonetischen Kodierung und zur Artikulation werden in

diesem Modell nur einige Teilvorschläge gemacht, wobei im Rahmen der phonetischen

Kodierung das Vorhandensein eines Sprechsilbenlexikons („syllabary“) vorgeschlagen

wird, in dem die häufig verwendeten Silben der jeweiligen Sprache gespeichert sind. Die

dort gespeicherten Silben sind höchst automatisierte gestische Muster, die daher nicht

immer wieder neu erzeugt werden müssen.

Nach erfolgter Silbifizierung – einschließlich der Aktivierung des Sprechsilbenlexikons –

erfolgt die motorische Kodierung und schließlich die entsprechende Programmierung der

Artikulationsmotorik.

(z.B. Peter gave it, die Silbifizierung ga-vit erfolgt über gave it und nicht über gave und it.) Levelt et al. 1999,

73

Selbstkorrektur

Was – wie bereits einleitend erwähnt – die Modellierung der Sprachproduktion noch

komplizierter macht ist die Möglichkeit der Selbstkontrolle und der Selbstkorrektur („self-

monitoring“ und „self-repair“). Sicher werden von den Sprechern nicht immer alle ihre

„Fehler“ (Versprecher, falsche Lexeme z.B. „rechts“ statt „links“ etc., syntaktische

Probleme usw.) erkannt und auch korrigiert, doch wichtig ist, daß die Selbstkorrektur

passieren kann und auch immer wieder passiert.

Für die Erklärung der Selbstkorrekturen bestehen zwei Modelle: die Editortheorie77 und

ein konnektionistisches Modell.

Im Editormodell wird von einem eigenen, externen System ausgegangen, das vom

Produktionssystem verschieden ist. Es analysiert laufend die Ergebnisse des

Produktionsprozesses und vergleicht diese Ergebnisse mit dem Input für die Produktion.

Bei Abweichungen kann nun die Produktion gestoppt werden und der Fehler korrigiert

werden. Wie o. e. (s. Abb. 21) nimmt Levelt an, daß die Produktion nur an zwei Stellen

kontrolliert werden kann: auf der Ebene der bereits in Silben gegliederten phonologischen

Kette und bei der hörbaren Rede. Die Analyse des Gesprochenen erfolgt durch das

Sprachverstehenssystem, also dem System, das Hörer zum Verstehen des Sprechers

verwendet. Wiederum wird das Produzierte mit dem Geplanten verglichen und bei

entsprechenden Abweichungen wird der Redefluß eventuell unterbrochen und eine

Korrektur durchgeführt.

Beim konnektionistischen Modell der Sprachverarbeitung78 wird davon ausgegangen, daß

das Produktionssystem ein aus verschiedenen Ebenen bestehendes mehrdimensionales

Netz ist. Eine Produktion erfolgt nun durch die fortschreitenden Aktivierung von Knoten

p.37 77 Levelt, 1989. s. Fn. 52

74

auf den verschiedenen Ebenen, wobei die Auslöser für die Produktion auf den höchsten

Ebenen zu finden sind. Dieser Aktivierungsfluß zieht sich als von den höchsten Knoten

bis hin zu den Knoten auf der präartikulatorischen Ebene. In diesem Modell wird die

Selbstkorrektur so erklärt, daß es eben nicht nur zu „top-down“ Aktivierungen kommt,

sondern daß – nach sehr kurzen Verzögerungen – von jedem nach unten feuernden Knoten

auch ein „Feedback“, d.h. eine Aktivierung, zurück nach oben – „bottom-up“ – erfolgt.

Somit wird die Produktion eines Fehlers auf einer höheren Ebene erkannt, weil eine

Diskrepanz zwischen dem Sollwert und dem Istwert besteht. Damit kann es zu einer

Unterbrechung und zu einer Korrektur kommen. In diesem Modell gibt es kein externes

Kontrollsystem, sondern die Kontrolle findet intern statt.

78 Berg, T. 1988. Die Abbildung des Sprachproduktionsprozesses in einem Aktivationsflußmodell: Untersuchungen an deutschen und englischen Versprechern. Tübingen

75

5 Sprachverständnis

So wie im Bereich der Sprachproduktion wollen wir uns hier auf das Verstehen von

gesprochener Sprache beschränken.

Der gesamte Prozeß des Verstehens von Sprache kann in verschiedene Teilaspekte

gegliedert werden:

Lautperzeption und Worterkennung

Satzverarbeitung

Semantische Verarbeitung.

Im Bereich der Lautperzeption und der Worterkennung geht es darum, wie können wir aus

einem Schallereignis die Sprachlaute herausfiltern und wie können wir erkennen, wo ein Wort

beginnt bzw. endet. Die Satzverarbeitung ist jener Teil des Sprachverstehens, in dem die

Analyse der syntaktischen Strukturen (Parsing) erfolgt. Wenn nun die Wörter erkannt sind

und auch die syntaktische Struktur des Satzes analysiert ist, erfolgt die semantische

Verarbeitung – das eigentliche Verstehen der Äußerung. Dabei wird der Inhalt der Äußerung,

der aus den vorausgegangenen Prozessen „erarbeitet“ wurde, in das semantisch-kognitive

System integriert.

5.1 Lautperzeption und Worterkennung

Im allgemeinen sind wir sehr gut und auch sehr schnell beim Erkennen von gesprochener

Sprache. Außerdem erfolgt dieser Prozeß automatisch, denn wie jeder selbst feststellen kann,

ist es im allgemeinen nicht möglich, sich dem Hören von Sprache zu entziehen. Daß die

Lautperzeption sehr schnell ist, zeigt sich darin, daß bei der Vorgabe der folgenden Reihe, ein

Summton, ein Zischen, ein Ton und ein Vokal, die Versuchspersonen die Reihenfolge nur

dann erkennen konnten, wenn die Geschwindigkeit der Präsentation langsamer als 1,5

76

Laute/sec war79. Im Bereich der gesprochenen Sprache können wir aber – je nach

Sprechgeschwindigkeit – 20 Phoneme oder mehr pro Sekunde verstehen. So ist es uns auch

möglich gesprochene Wörter im Kontext bereits ca. 200ms nach ihrem Beginn zu

identifizieren80. Die Perzeption der Sprachlaute und auch die Identifikation von Wörtern (im

Kontext) erfolgt also sehr rasch und das Erkennen von Sprachlauten scheint gegenüber nicht-

sprachlichen Geräuschen deutlich im Vorteil zu sein. Es stellt sich die Frage, wie kommt es

dazu?

Um überhaupt einmal zur Perzeption von Lauten zu kommen, muß erkannt werden, welche

Schallereignisse überhaupt sprachlichen Einheiten entsprechen; d.h. es geht um die

Segmentierung des Schallkontinuums. Aus dem segmentierten Schallereignis muß ableitbar

sein, um welche lautliche Einheit es sich dabei handelt – es erfolgt eine Kategorisierung.

Eine erste Kategorisierung erfolgt im Cortischen Organ, das das ankommende Schallsignal in

die darin enthaltenen Schwingungen zerlegt und auch für jede einzelne Schwingung feststellt,

wie viel Druck sie aufweist. Das Ergebnis ist ein Frequenzspektrum der ursprünglich

vorhandenen vermengten Schwingungen. Dies lässt sich nun graphisch wiedergeben und zwar

in einem sogenannten Spektrogramm (s. Abb. 26). Nun wissen wir aus der akustischen

Phonetik, die sich mit der Analyse der lautlichen Schallereignisse befasst, daß jeder

Sprachlaut ein individuelles Spektrogramm aufweist – somit bräuchte eigentlich nur jedem

einzelnen Spektrogramm der entsprechende Laut zugewiesen zu werden.

Dies klingt jetzt zwar sehr einfach, ist es aber nicht. Denn die akustischen Eigenschaften der

Laute sind keineswegs fixiert, sondern sie variieren mit dem Kontext, indem sie auftreten und

auch mit den Eigenschaften der Sprecher (z.B. die Stimmlage, die Klangfarbe der Stimme

etc.), aber auch mit den akustischen Eigenschaften der jeweiligen Sprechsituation.

79 Warren, R.M./Obusek, C.J./Farmer, R.M./Warren, R.P., 1969. Auditory sequence: Confusion of patterns other than speech or music. Science 164: 586-587 80 Marslen-Wilson, W.D., 1984. Spoken word recognition: A tutorial review. In: Bouma, H./Bouwhis, D.G. (eds.), Attention and performance X: Control of language processes. Hove, UK: 125-150

77

So weisen Miller und Jusczyk (198981) darauf hin, daß diese komplexe Beziehung zwischen

dem jeweiligen akustischen Signal und dem entsprechenden Laut von zwei Eigenschaften

herrührt, die als Beschränkungen in bezug auf Theorien der Sprachperzeption gesehen werden

müssen. Diese Eigenschaften sind beide Aspekte des Fehlens einer Identität zwischen der

akustischen Ebene und der phonetischen Ebene der Sprache. Bei diesen Eigenschaften handelt

es sich um das Problem der Variabilität und der Segmentierung.

Neben den o.e. Gründen ergibt sich die akustische Variabilität auch daraus, daß die

Realisierung eines Lautes von den umgebenden Lauten abhängig ist. Es kommt dabei zu

einem Assimilationsprozeß, d.h. es werden einige der akustische Eigenschaften der

umgebenden Laute übernommen. So wird etwa ein // in der Umgebung eines Nasals eine

entsprechende nasale Qualität erhalten. Es kommt zu Effekten, die als Koartikulation

bezeichnet werden. Damit ist gemeint, daß sich während der Produktion eines Lautes der

Produktionsapparat bereits die Position für den nächsten Laut einnimmt und bereits bereit ist,

seine Position für den nun folgenden Laut einzunehmen. Die Koartikulation ergibt sich aus

den sich beim Sprechen rasch ändernden Konfigurationen des Vokaltrakts, was aber auch

bedeutet, daß die Information über die Identität eines Lautes über mehrere akustische

Segmente verteilt ist. Somit erhalten wir zu einem bestimmten Zeitpunkt nicht nur

Information über einen einzelnen Laut, sondern wir erhalten auch etwas an Information über

die umgebenden Laute. So ist das /b/ in „binden“, „band“ oder „Bund“ akustisch jeweils

etwas anders und dies sagt uns bereits etwas darüber, welcher Laut als nächster kommt.

In Hinblick auf die Segmentierung besteht das Problem, daß es nicht immer leicht ist, die

einzelnen Sprachlaute auseinanderzuhalten, da sie im allgemeinen in einander übergehen

(abgesehen von Verschlußlauten und beim Auftreten von Pausen). Dies bezieht sich aber

nicht nur auf die Laute innerhalb von Wörtern, sondern ist wortübergreifend, d.h. die Wörter

gehen in einander über. So kann die Sequenz /::g n/ einerseits als „schief liegen“

81 Miller, J.L./Jusczyk, P.W., 1989. Seeking the neurobiological bases of speech perception. Cognition 33: 111-

78

andererseits auch als „Schi fliegen“ segmentiert werden82. Für die Segmentierung des

Schallereignisses scheint die Beschränkung wichtig zu sein, daß wir es offensichtlich

vorziehen, eine Lautkette so zu zerlegen, daß die einzelnen Teile ein mögliches Wort bilden

(„possible-word constraint“), so daß keine Teile von Silben allein stehen bleiben83.

Weitere Strategien zur Segmentierung gesprochener Sprache ergeben sich aus den

prosodischen Eigenschaften der jeweiligen Sprache. So werden bestimmte Silben betont, d.h.

hervorgehoben, andere dagegen besitzen weniger Prominenz und können gekürzt werden, was

mit betonten Silben nicht passiert. So kann dies z.B. im Englischen so genützt werden, daß es

wahrscheinlicher ist, daß eine betonte Silbe den Beginn eines Inhaltswortes anzeigt, wogegen

unbetonte Silben nicht am Beginn eines Wortes auftreten oder auf den Beginn eines

Funktionswortes hinweisen84. Daß eine solche „metrische Segmentierungsstrategie“ (

„metrical segmentation strategy“) eine Rolle spielt, läßt sich zeigen, wenn in Experimenten

Materialien verwendet werden, die den prosodischen Erwartungen zuwider laufen. So

berichten Cutler/Butterfield (1992, s. Fn.84), daß eine Versuchsperson die nur sehr leise

dargebotene Wortfolge „conduct ascents uphill“ als „The doctor sends the bill.“ und eine

andere als „A duck descends some pill.“ wiedergaben. In diesen Fällen haben die

Versuchspersonen aufgrund einer auf der Betonung beruhenden Segmentierungsstrategie die

Wortgrenzen vor den betonten Silben gesetzt. Daß es die Segmentierungsstrategien von der

Struktur der jeweiligen Sprache beeinflußt sind, zeigt sich bei Untersuchungen mit

bilingualen Sprechern85. In Sprachen, die eine eindeutige Silbenstruktur aufweisen, z.B.

137 82 Eigentlich tritt an der jeweils relevanten Stelle eine Junktur auf, die auf die Morphemgrenzen hinweist. Allerdings werden umgangssprachlich und auch beim schnellen Sprechen nicht alle Junkturen auch in der Aussprache berrücksichtigt. 83 s. dazu: Norris, D./McQueen, J.M./Cutler, A./Butterfield, S., 1997. The possible-word constraint in the segmentation of continous speech. Cognitive Psychology 34: 191-243 84 s. dazu: Cutler, A./Butterfield, S., 1992. Rhythmic cues to speech segmentation: Evidence from juncture misperception. J. of Memory and Language 31: 218-236; Cutler, A./Norris, D., 1988. The role of strong syllables in segmentation for lexical access. J. of Experimental Psychology: Human Perceprion and Performance 14: 113-121 85 Cutler, A./Mehler, J./Norris, D./Segui, J., 1986. The syllables’s differing role in the segmentation of French and English. J. of Memory and Language 25: 385-400; dieselben 1992. The monolingual nature of speech segmentation by bilinguals. Cognitive Psychology 24: 381-410

79

Französisch, kann eine auf der Silbe basierende Segmentierungsstrategie angewendet werden.

Die Untersuchung von englisch-französisch bilingualen Sprechern mittels einer Silben-

monitoring Aufgabe86 ergab, daß diese bilingualen Sprecher entsprechend ihrer dominanten

Sprache segmentierten. Sprecher mit Englisch als dominanter Sprache verwendeten eine auf

der Betonung basierende Strategie bei den englischen Materialien und sie zeigten keine auf

der Silbe basierende Strategie. Die Sprecher mit Französisch als dominante Sprache

verwendeten eine auf Silben basierende Segmentierungsstrategie nur bei den französischen

Materialien. Somit scheinen bilinguale Sprecher – zumindest jene mit einer dominanten

Sprache – bezüglich der Segmentierung wie monolinguale zu handeln.

Wie bereits erwähnt, läßt sich eine große Variation hinsichtlich der produzierten Laute

feststellen, aber wir scheinen diese Variation nicht wahrzunehmen, denn ein von wem auch

immer, in welchem Kontext auch immer produziertes [p] stellt immer ein /p/ dar. Zu diesem

Phänomen kommt es, weil wir die gehörten Sprachlaute immer einer bestimmten Kategorie

zuordnen – es gibt keine nur teilweise Zuordnung: ein Laut gehört zu dieser oder zu jener

Kategorie. Dieses Phänomen wird als kategoriale Perzeption bezeichnet. Diese Art der

Wahrnehmung akzeptiert zumindest bei den Konsonanten (s.u.) keine fließenden Übergänge

bei der Perzeption von lautlichen Schallereignissen, sondern wir ordnen sie genau einer

Kategorie zu, sie sind entweder „stimmlos“ oder „stimmhaft“, „dental“ oder „velar“.

Die ersten Untersuchungen87 verwendeten synthetisierte Silben, die ein Kontinuum

darstellten, das sich im Artikulationsort unterschied. Obwohl es sich um ein Kontinuum

gehandelt hatte, teilten es die Versuchspersonen in drei unterschiedliche Kategorien ein,

nämlich /b/, /d/ und /g/.

86 Es mußte so schnell wie möglich auf eine Lautsequenz reagiert werde. So mußte z.B. im Französischen auf die Lautsequenzen „ba“ bzw. „bal“ reagiert werden, und zwar in den Wörter „balance“ bzw. „balcon“. Da „balance mit der Silbe „ba“ beginnt und „balcon“ mit „bal“ reagieren französische Native Speaker sehr rasch auf die jeweiligen den Anfangsilben entsprechenden Lautsequenzen. Dagegen verlängert sich die Reaktionszeit, wenn die Sequenz „bal“ in „balance“ bzw. „ba“ in „balcon“ zu finden ist. Sprecher des Englischen weisen diese Unterschiede im Erkennen dieser Lautsequenzen in „balance“ und „balcony“ nicht auf. 87 Liberman, A.M./Harris, K.S./Hoffman, H.S./Griffith, B.C., 1957. The discrimination of speech sounds within and across phoneme boundaries. J. of Experimental Psychology 53: 358-368

80

Ein weiteres Beispiel für die kategoriale Perzeption stellt die sogenannte VOT („voice onset

time“) dar. Dabei handelt es sich um die temporale Beziehung zwischen dem Beginn der

Phonation und dem Lösen des primären Verschlusses im Vokaltrakt. Bei der Produktion eines

Verschlußkonsonanten am Beginn einer einzelnen Silbe kann die Phonation (fast) gleichzeitig

mit der Verschlußlösung beginnen (oder auch bereits vorher). Die Unterscheidung zwischen

/b/ und /p/ ergibt sich nun daraus, daß bei /b/ die Phonation (fast) gleichzeitig mit der

Verschlußlösung beginnt und bei /p/ die Phonation mehr oder weniger stark verzögert auftritt.

Anzumerken ist noch, daß sich die VOTs von Sprache zu Sprache (auch bei geographischen

Varianten) unterscheiden. Da der Einsatz der Phonation im Prinzip ein Kontinuum darstellt,

kann man entsprechende synthetisierte Kontinua von VOTs von einzelnen Silben erstellen.

Wenn nun Versuchspersonen die Plosive am Anfang dieser synthetisierten Silben in Bezug

auf die Stimmhaftigkeit bzw. Stimmlosigkeit – also z.B. /b/ oder /p/ - beurteilen mußten, dann

ergab sich trotz des Kontinuums der VOTs eine deutliche Abgrenzung zwischen der

Perzeption von /b/ und /p/, wobei sich die Probanden über fast das ganze Kontinuum hinweg

zu 100% sicher waren, was sie gehört hatten88.

Die Grenzen zwischen den Kategorien sind allerdings nicht fest stehend, sondern sie

variieren, z. B. auch mit der Sprechgeschwindigkeit. Das Perzeptionssystem scheint in der

Lage zu sein sich so anzupassen, daß ein zwar absolut gesehen kurzes Intervall als ein relativ

langes behandelt wird89. Zu diesem Phänomen gibt es Hinweise, daß es möglicherweise nicht

gelernt ist, da auch Kleinkinder eine Sensibilität gegenüber der Sprechgeschwindigkeit

aufweisen90.

Obwohl die Annahme einer kategorialen Perzeption von zumindest Konsonanten in der

Psycholinguistik fast als eine Grundannahme anzusehen ist, was dazu führte, daß man

88 Lisker, L./Abramson, A., 1970. The voicing dimension: Some experiments in comparative phonetics. In. Proceedings of the 6th Internationl Congress of the Phonetic Sciences, Prague 1967. Prague: 563-567 89 Summerfield, Q., 1981. Articulatory rate and perceptual constancy in phonetic perception. J. of Experimental Psychology: Human Perception and Performance 7: 1074-1095

81

annahm, daß die Hörer nicht zwischen leicht unterschiedlichen Mitgliedern einer Kategorie

unterscheiden können, scheint diese Annahme doch nicht so ausnahmslos zu stimmen. So

stellten Pisoni/Tash (1974)91 fest, daß die Versuchspersonen schneller darauf reagieren

konnten, daß zwei /ba/-Silben dieselben waren, wenn die [b]-Laute akustisch identisch waren,

als wenn sich diese Laute in Bezug auf die VOT leicht unterschieden. Offensichtlich konnten

die Versuchspersonen auch Unterschiede innerhalb einer Kategorie erkennen.

Ein interessantes Problem in Hinblick auf die Worterkennung stellt die Frage dar, ob es

notwendig ist, daß vor der Identifizierung von Wörtern die einzelnen Phoneme erkant werden

müssen. So zeigten Untersuchungen92, daß Probanden, wenn sie so schnell wie möglich auf

ein spezifisches Element – ein Phonem oder eine Silbe – reagieren mußten, länger brauchten,

um auf das Phonem zu reagieren als auf die Silbe. Dies würde nun bedeuten, daß wir die

Wörter nicht aufgrund ihrer Phoneme erkennen, sondern nur aufgrund der Perzeption einer

fundamentaleren Einheit, nämlich ihrer Silben. Diese Folgerung wurde allerdings auch als

sehr problematisch angesehen93, indem in Frage gestellt wurde, daß diese Art von Test

überhaupt eine direkte Beziehung zur Perzeption darstellt. Denn wenn man sich schneller

einer höheren Einheit bewußt wird, bedeutet das noch nicht, daß diese auch zuerst verarbeitet

wird.

In der Folge wurde auch eine Theorie, die von zwei Kodierungen – einem prälexikalischen

(phonetischen) und einem postlexikalischen (phonemischen) Code – ausging vorgeschlagen94.

Während der prälexikalische Code direkt aus der Analyse des akustischen Input abgeleitet

wird, kommt im postlexikalischen Code die Information der Wörter, also der Einheiten der

höheren Ebene, zum tragen. Als allerdings die experimentelle Unterstützung dieser Theorie

90 Miller, J.L./Jusczyk, P.W., 1989. Seeking the neurobiological bases of speech perception. Cognition 33: 111-137 91 Pisoni, D.B./Tash, J., 1974. Reaction times to comparisons within and across phonetic categories. Perception and Psychophysics 15: 285-290 92 Savin, H.B./Bever, T.G., 1970. The non-perceptual reality of the phoneme. J. of Verbal Learning and Verbal Behavior 9: 295-302 93 Foss, D.J./Swinney, D.A., 1973. On the psychological reality of the phoneme: Perception, identification, and consciousness. J. of Verbal learning and Verbal Behavior 12: 246-257

82

nicht dementsprechend ausfiel95, wurde daraus geschlossen, daß die Reaktion bei den

Phonem-Monitoring Aufgaben aufgrund des prälexikalischen Codes erfolgt, was bedeutet,

daß die Phoneme ein Teil des prälexikalischen Codes sind.

Grundsätzlich stellt sich die Frage, ob überhaupt eine vollständige phonematische

Klassifikation erfolgt sein muß, bevor auf das entsprechende Lexem zugegriffen werden kann.

So haben Marslen-Wilson/Warren (1994)96 darauf hingewiesen, daß der lexikalische Zugang

von der im akustischen Signal vorhandenen Merkmalsinformation aus erfolgt, wobei die

bereits oben erwähnte koartikulatorische Information von Vokalen benutzt wird, um relativ

früh eine Hilfe zur Identifikation des folgenden Konsonanten zu haben.

Zusammenfassend hat sich gezeigt, daß doch die meisten Daten darauf hinweisen, daß

während der Worterkennung zwar Phoneme verarbeitet werden, es jedoch nicht notwendig ist,

die vollständige phonematische Struktur des Wortes kodiert zu haben, um mit der dem

Erkennen des Wortes zu beginnen.

Ein interessanter Beitrag bezüglich der Phonemrepräsentationen kommt von Morais/Kolinsky

(1994)97, die vorschlagen, daß es zwei unterschiedliche Phonemrepräsentationen gibt: ein

unbewußtes System, das für die Perzeption und die Produktion von Sprache zuständig ist und

ein bewußtes System, das sich im Laufe des Erlernens des Lesens und Schreibens entwickelt.

Dazu ist anzumerken, daß diese Überlegungen wohl nur für Sprachen gelten können, die eine

alphabetische Orthographie aufweisen.

Bisher sind wir bezüglich der Vorstellung, wie eine Theorie der Lautwahrnehmung aussehen

könnte, davon ausgegangen, daß der gehörte Schall „einfach“ in Phoneme überführt wird.

Daneben gibt es aber noch weitere Annahmen wie z.B. die Motor-Theorie der

Lautwahrnehmung („motor theory of speech perception“). In diesem Modell wurde

94 Foss, D.J./Blank, M.A., 1980. Identifying the speech codes. Cognitive Psychology 12: 1-31 95 Foss, D.J./Gernsbacher, M.A., 1983. Cracking the dual code: Toward a unitary model of phoneme identification. J. of Verbal learning and Verbal Behavior 22: 609-632 96 Marslen-Wilson, W.D./ Warren, P., 1994. Levels of perceptual representation and process in lexical access: Words, phonemes, and features. Psychological Review 101: 653-675

83

angenommen, daß es bei Lautwahrnehmung zu einer Innervation der Sprechmuskulatur des

Hörers kommt und daß damit die Perzeption auch der Laute auf dieser im Stillen

nachvollzogenen Artikulation beruht.

Einen weiteren Aspekt der Perzeption betrifft die Frage, inwieweit der Kontext – und zwar

nicht der unmittelbar lautliche – sondern der Kontext eines ganzen Wortes bzw. sogar eines

Satzes, die Perzeption eines Lautes beeinflussen kann. D.h. es geht darum, ob der Prozeß der

Lautperzeption ein reiner „bottom-up“ Prozeß ist oder ob er auch durch „top-down“

Information beeinflußt wird. Wenn sich „top-down“ Prozesse nachweisen lassen, dann kann

man davon ausgehen, daß die Lautperzeption zumindest zum Teil ein interaktiver Prozeß ist.

Die Ergebnisse von Untersuchungen98, bei denen ein nicht eindeutig erkennbaren Laut, z.B.

/g/ oder /k/, am Beginn des auslautenden Teils eine Wortes, z.B. „-iss“, angefügt worden war,

zeigten, daß die Probanden dazu tendierten, jenen Laut wahrgenommen zu haben, der ein

Wort ergibt – in diesem Fall „kiss“. D.h. in jenen Fällen, wo die perzeptuelle Information

allein nicht ausreicht, um den Laut eindeutig einer Kategorie zuzuordnen, wird offensichtlich

auf lexikalische Information zurückgegriffen.

Im Zusammenhang mit kontextuellen Einflüssen auf die Lautperzeption sind auch die bereits

„klassischen“ Untersuchungen zu sehen, die einen Effekt nachzuweisen scheinen, der als

„phoneme restoration“ bezeichnet wird. In diesen Untersuchungen99 wurden Sätze präsentiert

wie „The state governors met with their respective legi*latures in the capital city“. An der mit

* markierten Stelle wurde das /s/ durch ein Räuspern oder ein Hüsteln ersetzt. Den Probanden

fiel diese Ersetzung allerdings nicht auf, woraus geschlossen wurde, daß sie diesen Laut

ersetzten und zwar aufgrund der Verwendung von syntaktischer und semantischer

97 Morais, J./Kolinsky, R. 1994. Perception and awareness in phonological processing: The case of the phoneme. Cognition 50: 287-297 98 Ganong, W.F., 1980. Phonetic categorization in auditory word perception. J. of Experimental Psychology: Human Perveption and Performance 6: 110-125; Connine, C.M./Clifton, C., 1987. Interactive use of lexical information in speech perception. J. of Experimental Psychology: Human Perception and Performance 13: 291-319

84

Information. Dieser Effekt war allerdings nicht beobachtbar, wenn der Laut durch ein kurzes

Intervall von Stille ersetzt wurde. Weiters wurden den Versuchspersonen Sätze wie folgende

vorgegeben: It was found that the *eel was on the orange.

It was found that the *eel was on the axle.

It was found that the *eel was on the shoe.

It was found that the *eel was on the table.

Die verwendeten Bänder waren so konstruiert, daß es zwischen den Sätzen keine

Unterschiede gab außer den letzten Wörtern. Anstelle des fehlenden Lautes gab es wieder ein

Räuspern. Die Ergebnisse zeigten, daß die Versuchspersonen die Laute entsprechend dem

semantischen Kontext ersetzten, also „peel“, „wheel“, „heel“ und „meal“.

Diese Ergebnisse scheinen doch deutlich darauf hinzuweisen, daß die Lautperzeption auch

von Informationen auf höheren Ebenen – der syntaktischen und semantischen – beeinflußt

wird. Allerdings wurde auch in Frage gestellt, ob die Versuchspersonen den fehlenden Laut

auch tatsächliche perzipiert hatten100, den die Ersetzung könnte auch auf einer höheren Ebene

passiert sein. D.h. also: Beeinflußt der Kontext tatsächlich die Perzeption der Laute oder

erfolgt dies erst durch einen späteren Prozeß?

In einer Reihe von Untersuchungen zu diesem Problem kam Samuel101 zu dem Schluß, daß

der lexikalische Kontext tatsächlich zur Wiederherstellung von Phonemen führt und dieser

Prozeß erfolgt prälexikalisch. Außerdem zeigte sich, daß der Satzkontext das Erkennen der

Phoneme nicht beeinflußt, sondern sich auf die postlexikalische Verarbeitung auswirkt.

99 Warren, R.M./Warren, R.P., 1970. Auditory illusions and confusions. Scientific American 223: 30-36; Obusek, C.J./Warren, R.M., 1973. Relation of the verbal transformation and the phonemic restoration effects. Cognitive Psychology 5: 97-107 100 s. Fodor, J.A., 1983. The modularity of mind. Cambridge, MA 101 Samuel, A.G., 1981. Phonemic restoration : Insights from a new methodology. J. of Experimental Psychology: General 110: 474-494; ders. 1987. The effect of lexical uniqueness on phonemic restoration. J. of Memory and Language 26: 36-56; ders. 1990. Using perceptual-restoration effects to explore the architecture of perception. In: G.T.M. Altmann (ed.), Cognitive models of speech processing, Cambridge, MA: 295-314; ders. 1996. Does lexical information influence the perceptual restoration of phonemes? J. of Experimental Psychology: General 125: 28-51

85

Mit dem Erkennen der einzelnen Laute ist die Worterkennung keineswegs schon

abgeschlossen. Das Ergebnis der Lauterkennung ist eine Kette von Phonemen, aus der die

einzelnen Lexeme „herausgefiltert“ werden müssen. Für das Erkennen der Lexeme können

zwei Wege angenommen werden, entweder besteht eine direkte Verbindung zwischen der

Phonemebene und der Lexemebene oder das Erkennen erfolgt über eine Zwischenstufe – also

handelt es sich entweder um lexikalische oder um prälexikalische Prozesse. Unabhängig

davon umfaßt der Prozeß der Worterkennung mindestens drei Schritte102: erster Kontakt

(„initial contact“), lexikalische Auswahl („lexical selection“) und Worterkennen („word

recognition“). Es besteht die Möglichkeit, daß sich diese Stadien überlappen, aber dies ist eine

empirische Frage und zwar auch in Hinblick auf die Annahme von modularen Prozessen. (In

einem Modell, das eine Lemmaebene annimmt (wie das oben vorgestellte

Produktionsmodell), muß nach der lexikalische Auswahl eine Verbindung zum jeweiligen

Lemma hergestellt werden, um auf diese Weise die entsprechende grammatikalische

Information zu integrieren. D.h. in diesem Fall ist die abschließende Phase ein

Integrationsprozeß.)

Die Worterkennung beginnt also sobald durch die Repräsentation des lautlichen Inputs ein

erster Kontakt mit dem Lexikon hergestellt wird. Aufgrund der Übereinstimmung der

Elemente in der Phase des ersten Kontakts werden die lexikalischen Einträge aktiviert. Diese

Aktivierung hat je nach Modell der Worterkennung (s.u.) ein unterschiedliches Ausmaß. In

der Phase der lexikalischen Selektion nimmt die Aktivierung soweit zu bis ein bestimmter

lexikalischer Eintrag ausgewählt ist. Mit dem Abschluß der Selektion ist die Worterkennung

erfolgt.

Daß die Worterkennung einen äußerst raschen und on-line arbeitenden Prozeß darstellt,

zeigen z.B. die Leistungen bei Untersuchungen zum „shadowing“ („Schattensprechen“). Die

Aufgabe dabei ist, einen über Kopfhörer gehörten Text so schnell wie möglich

102 Frauenfelder, U.H./Tyler, L.K., 1987. The process of spoken word recognition: An introduction. Cognition

86

nachzusprechen. Dies gelingt manchen Sprechern so gut, daß nur 250 ms hinter dem

jeweiligen Textelement zurückliegen103. Es stellt sich nun die Frage, an welchem Punkt in

der Lautkette wird ein Lexem erkannt? Eine Möglichkeit dies festzustellen, bieten die

sogenannten „Gating“-Experimente104. Bei diesen Untersuchungen hört der Proband einen

akustischen Input in kleinen, zeitlich getrennt aufeinanderfolgenden Teilen von ca. 50 ms. Die

Aufgabe besteht nun darin, daß die Versuchsperson reagieren muß, sobald sie glaubt das Wort

erkannt zu haben. Dies könnte z.B. bei einem Wort wie „Freundschaft“ an jenem Punkt

erfolgen, an dem das Segment [] verarbeitet worden ist. Dieser Punkt, an dem ein Wort

eindeutig von allen anderen Wörtern unterscheidbar wird, d.h. die analysierte Lautsequenz ist

nur für dieses Wort charakteristisch, wird als Diskriminationspunkt („uniqueness point“)

bezeichnet. Das Erkennen eines Wortes kann nun auch erst nach dem Diskriminationspunkt

erfolgen, aber es kann auch schon vor diesem Punkt erfolgen – vor allem beim Vorliegen von

entsprechend einschränkenden Kontexten. Der Punkt, an dem dies erfolgt, wird als

Isolationspunkt („isolation point“) bezeichnet. Dies ist also jener Punkt, an dem ein Teil der

Probanden eine Entscheidung über das Zielwort getroffen haben, sei sie nun richtig oder

falsch. Beim Isolationspunkt hat der Hörer eine Entscheidung hinsichtlich eines möglichen

Kandidaten für ein Wort getroffen. In der Folge wird nun der restliche Input beobachtet, bis

zu jenem Punkt, an dem ein bestimmter Grad an Sicherheit erreicht ist – dies ist dann der

Worterkennungspunkt („recognition point“). Nach der Worterkennung kommt es zum

lexikalischen Zugriff („lexical access“), bei dem die gesamte Information eines Wortes – also

die phonologische, morphosyntaktische, semantische und pragmatische – verfügbar wird. In

der Folge kommt es nun zum eigentliche Verstehensprozeß, in dem die syntaktischen und

semantischen Eigenschaften des Wortes in die Satzrepräsentationen integriert werden.

25: 1-10 103 Marslen-Wilson, W., 1973. Linguistic structure and speech shadowing at very short latencies. Nature 244: 522-523 104 Marslen-Wilson, W.D./Tyler, L.K., 1980. The temporal structure of spoken language understanding. Cognition 8: 1-71

87

5.1.1 Modelle der Worterkennung

Wie bereits erwähnt, müssen wir, bevor wir auf das Lexikon zugreifen können, den Output

des Hörnervs in ein entsprechendes Format „übersetzen“. Dabei gingen die frühen Modelle

der Lauterkennung von einem „Schablonenabgleich“ („template matching“) aus. D.h. die

Ziele sind als Schablonen gespeichert und die Identifizierung erfolgt dann, wenn eine

entsprechende übereinstimmende Schablone gefunden wurde. Da aber im sprachlichen Signal

viel zu viel Variabilität vorhanden ist, bilden solche Schablonenmodelle keine plausible

Erklärung für die Laut- und Worterkennung.

Prinzipiell können wir zwei Arten von Modellen für die Worterkennung unterscheiden. Das

Kohortenmodell („cohort model“) mit seiner bottom-up Verarbeitung und konnektionistische

Modelle, wie das TRACE Modell, die die interaktive Natur der Worterkennung betonen. Beim

Kohortenmodell können wir zwischen einer frühen und einer späteren Variante unterscheiden,

wobei die spätere eine Modifizierung darstellt, die zum Teil als Antwort auf das TRACE

Modell zu sehen ist.

Das Kohortenmodell

Das Kohortenmodell wurde von Marslen-Wilson und Welsh105 entwickelt. Die zentrale

Überlegung ist bei diesem Modell, daß wir, wenn wir gesprochene Sprache hören, sozusagen

eine „Kohorte“ von Lexemen aktivieren, die alle mit dem ersten Phonem des gehörten Wortes

beginnen. In der Folge, wenn weitere Phoneme identifiziert sind, werden immer mehr

Kandidaten aus der ursprünglich aktivierten Kohorte ausgeschieden, bis schließlich nur mehr

ein Lexem übrigbleibt. Damit ist die Worterkennung erfolgt. Wie bereits erwähnt muß man

105 Marslen-Wilson, W.D./Welsh, A., 1978. Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology 10: 29-63; Marslen-Wilson, W.D., 1984. Spoken word recognition: A tutorial review. In: H. Bouma/D.G. Bouwhis (eds.), Attention and Performance X: Control of language processes. Hove, UK: 125-150; Marslen-Wilson, W.D., 1987. Functional parallelism in spoken word recognition. Cognition 25: 71-102

88

zwischen einer früheren (Marslen-Wilson, 1984101) und einer späteren (Marslen-Wilson,

1989, 1990106)Version unterscheiden, wobei die frühere mehr Interaktion erlaubte, und die

spätere eine autonomere Verarbeitung aufweist und das System der Worterkennung besser mit

nicht präzisen Wortanfängen umgehen kann.

Dieses Modell besteht aus drei Verarbeitungsstufen. Im ersten Schritt, dem Zugangsstadium

(„access stage“), werden aufgrund der perzeptuellen Repräsentation Lexeme aktiviert, die als

mögliche Kandidaten für das jeweilige Wort in Frage kommen könnten – eine Kohorte. Der

nächste Schritt besteht in einem Auswahlverfahren („selection stage“), in dem nun ein

Element aus der Kohorte ausgewählt wird. Den Abschluß bildet ein Integrationsstadium

(„integration stage“), bei dem nun die syntaktischen und semantischen Eigenschaften des

Wortes genutzt werden, um es z.B. in die Repräsentation eines ganzen Satzes zu integrieren.

Die beiden ersten Schritte, Zugang und Auswahl, sind prälexikalisch und der dritte,

Integration ist postlexikalisch.

Wenn wir also den Anfang eines Wortes hören, wird eine Kohorte von Wörtern aktiviert, die

denselben Anfang haben. In der Folge kommt es zu einer aktiven Eliminierung von

Kandidaten, wobei alle möglichen Mittel herangezogen werden, wie weitere phonologische

Information, aber auch der semantische und syntaktische Kontext. Die meiste

Verarbeitungsaktivität tritt rund um den Diskriminationspunkt auf – also dann wenn das Wort

eindeutig von den anderen unterschieden werden kann. Dazu ein Beispiel mit zunehmenden

Segmenten:

1) /b/

2) /be/

3) /bet/

4) /betr/

106 Marslen-Wilson, W.D.(ed), 1989. Lexical representation and process. Cambridge, MA; Marslen-Wilson, W.D., 1990. Activation, competition, and frequency in lexical access. In: G.T.M. Altmann (ed.), Cognitive models of speech processing. Cambridge, MA: 148-172

89

5) /betre/

6) /betret/

7) /betretn/

Wenn zuerst /b/ wahrgenommen haben, dann ist klar, daß wir eine große Zahl von

Wortkandidaten haben. Aber mit jedem weiteren Segment verringert sich die Anzahl, so daß

bei /betr/ noch eine große Zahl von möglichen Kandidaten vorhanden sind, die durch das

nächste Segment /e/ allerdings deutlich eingeschränkt werden. Im Falle der Kette /betret/ ist

nun die Kohorte so eingeschränkt, daß nur mehr ein Wort – genauer eigentlich ein

Basismorphem – übrig bleibt. Es ist allerdings anzumerken, daß der Worterkennungspunkt

nicht mit dem Diskriminationspunkt übereinstimmen muß. Wenn wir einen Satz wie „Der

frischgemähte Rasen darf nicht be- (werden)“, so kann hier bereits der Kontext

ausschlaggebend sein, daß alle anderen Kandidaten mit Ausnahme von „betreten“ bereits aus

der Kohorte ausgeschieden worden sind. Damit kann das Wort bereits vor seinem

Diskriminationspunkt erkannt worden sein. Das ältere Modell war sehr interaktiv in Hinblick

darauf, daß der Kontext das prälexikalische Auswahlstadium beeinflussen kann. Das Problem

dabei ist allerdings, daß ein starker kontextueller Einfluß zu einem Fehler führen kann.

Andererseits kann bei schlechter sensorischer Information der Worterkennungspunkt auch

deutlich nach dem Diskriminationspunkt liegen. Der Diskriminationspunkt und der

Worterkennungspunkt fallen wohl nur dann zusammen, wenn es sich um ein deutlich

gesprochenes Einzelwort handelt.

In der späteren Version (s. Fn. 102) wird der Einfluß des Kontexts erst im Integrationsstadium

wirksam. D.h. der Kontext kann die Zahl der Kandidaten nicht schon vor dem

Diskriminationspunkt verringern. Diese Änderung ergab sich aus den Ergebnissen von

empirischen Studien, die die Gating-Methode verwendeten, und die darauf hinwiesen, daß die

90

Rolle des Kontexts doch weniger groß ist als zuerst angenommen. In diesen Studien107 wurde

festgestellt, daß die Probanden ca. 333 ms benötigen, um ein einzelnes Wort zu identifizieren,

aber für ein Wort in einem entsprechenden Kontext nur 199 ms. Aber es zeigte sich auch, daß

die bis zum Erkennungspunkt aktivierten Kandidaten der Kohorte solche sind, die mit der bis

zu diesem Punkt erstellten perzeptuellen Repräsentation übereinstimmen – aber nicht mit dem

Kontext. Somit stellte sich heraus, daß die syntaktischen und semantischen Beschränkungen

durch den Kontext – zumindest am Beginn – die Aktivierung von Wortkandidaten, die mit

dem sensorischen Input übereinstimmen aber nicht mit dem Kontext, nicht verhindern.

Mit Hilfe der Technik des „cross-modal priming“ wurde festgestellt, daß am Beginn eines

Wortes ein Priming (assoziative Aktivierung) von mit dem Zielwort nicht in Beziehung

stehenden Wörtern möglich ist. In dieser Untersuchung108 hörten die Versuchspersonen über

Kopfhörer Sprache, während sie gleichzeitig auf einen Computermonitor schauten, um eine

lexikalische Entscheidungsaufgabe durchzuführen. Auf diese Weise konnte die Beziehung

zwischen dem Wort auf dem Bildschirm und dem Gesprochenen sowie die zeitliche Relation

zwischen den beiden systematisch variiert werden. Für den Test wurde Holländisch als

Sprache verwendet. Die Versuchspersonen hörten unterschiedliche Teile eines Wortes wie

„kapitein“ („Kapitän“), bevor ein mit diesem in Beziehung stehendes Wort oder ein

Kontrollwort auf dem Bildschirm erschien. Beim Hören von „kap“ kann das Wort noch nicht

diskriminiert werden, denn es könnte auch z.B. der Beginn von „Kapital“ sein. In dieser

Untersuchung stellte Zwitserlood nun fest, daß es in einer solchen Situation zu einer

Aktivierung von Wörtern kommt, die mit beiden möglichen Wörtern („Kapitän“ und

„Kapital“) in Beziehung stehen, nämlich „Schiff“ und „Geld“. Wenn das ganze Wort gehört

worden war, war aber nur mehr eine Aktivierung der mit diesem Wort in Verbindung

107 Grosjean, F., 1980. Spoken word recogniton processes and the gating paradigm. Perception and Psychophysics 28: 267-283; Tyler, L.K./Wessels, J., 1983. Quantifying contextual contributions to word-recognition processes. Perception and Psychophysics 34: 409-420; Tyler, L.K., 1984. The structure of the initial cohort. Perception and Psychophysics 36: 415-427

91

stehenden möglich. Ein weiteres wichtiges Ergebnis stellte die Erkenntnis dar, daß ein

entsprechender Kontext keinen Effekt in der frühen Phase des Wortes ausübte. Ein

Kontexteffekt wurde aber nach dem Isolationspunkt des Wortes festgestellt. Der Kontext

steigert das Aktivierungsniveau des spezifischen Wortes in Bezug zu den anderen

Kandidaten. Diese Ergebnisse weisen darauf hin, daß der Satzkontext einen eher späten

Einfluß auf das Verstehen eines Wortes und seine Integration in die Syntax und Semantik

eines Satzes hat.

Was passiert aber nun, wenn der lautliche Beginn eines Wortes nicht entsprechend perzipiert

werden kann? Dies würde ja bedeuten, daß das richtige Element in der Kohorte mit den

Wortanfängen fehlt. Trotzdem können wir meistens das korrekte Wort identifizieren. Daher

ist im späteren Kohortenmodell für diese Fälle der Grad der Überlappung zwischen dem

Perzept und den Kandidaten für die Erzeugung der Kohorten wichtig. In dieser späteren

Variante des Kohortenmodells wird auch angenommen, daß der Aktivierungsgrad der

Kandidaten, für die es keine weitere positive perzeptuelle Information gibt, wieder auf das

Ruheniveau zurückgeht. Sie können allerdings durch nachfolgende positive Information

„wiederbelebt“ werden.

Daß die Wortanfänge eine wichtige Rolle für die Worterkennung spielen, zeigt sich auch

darin, daß Teile eines Wortes, die mit dem Beginn eines Wortes übereinstimmen, fast genau

so gute Primingergebnisse liefern wie das Wort selbst (s. Marslen-Wilson, 1987 Fn.101,

Zwitserlood, 1989 Fn.104). Des weiteren lassen sich mit Teilen von sich reimenden Elementen

eines Wortes kaum Primingeffekte erzielen109.

108 Zwitserlood, P. 1989. The locus of the effects of sentential-semantic context in spoken-word processing. Cognition 32: 25-64 109 Marslen-Wilson, W.D., 1993. Issues of process and representation in lexical access. In G.T.M. Altmann/R. Shillcock (eds.), Cognitive models of speech processing .Hove, UK: 187-210

92

Die Häufigkeit der Kandidaten in einer Kohorte beeinflußt ebenfalls die Worterkennung. So

stellte Marslen-Wilson (1990110) fest, daß die Zeit, die benötigt wird, um ein Wort zu

erkennen, auch von der Frequenz der Kandidaten in der Kohorte abhängt. So dauert es bei

hochfrequenten Konkurrenten länger bis der Isolationspunkt erreicht ist. Am längsten dauert

es bei einem niederfrequenten Zielwort und hochfrequenten Konkurrenten. Die zweitlängste

Zeit wird gebraucht, wenn sowohl das Zielwort als auch die Konkurrenten niederfrequent

sind. Die kürzeste Zeit benötigen hochfrequente Zielwörter neben niederfrequenten

Konkurrenten.

Das Kohortenmodell wurde – wie bereits erwähnt – im Laufe der Zeit überarbeitet, so daß im

späteren Modell die einzelnen Elemente nicht mehr entweder da oder nicht da sind, sondern

das Niveau ihrer Aktivierung entspricht der Genauigkeit der Übereinstimmung des jeweiligen

Kandidaten mit der akustischen Information. Das bedeutet, daß das Aktivierungsniveau der

Kandidaten schrittweise auf das Ausgangsniveau zurückgeht. Damit läßt sich auch die

Korrektur von Fehlern besser erklären.

Das TRACE-Modell

Das TRACE-Modell (McClelland/Elman, 1986111) ist ein interaktives Erkennungsmodell für

gesprochene Wörter, das von einem ebenfalls interaktiven Erkennungsmodell für Buchstaben

und geschriebene Wörter112 abgeleitet wurde. Im folgenden sollen grundsätzlichen

Charakteristika dieses Modells dargestellt werden, wobei allerdings auf die mathematischen

Details nicht eingegangen wird.

Einen wichtigen Punkt in diesem Modell stellt die Annahme dar, daß die „top-down“

Verarbeitung – also der Kontext – eine wichtige Rolle bei der Worterkennung spielt. D.h. der

110 Marslen-Wilson, W.D., 1990. Activation, competition, and frequency inlexical access. In: Altmann, G.T.M. (ed.), Cognitive models of speech processing: Psycholinguistic and computational perspectives. Cambridg, MA: 148-172 111 McClelland, J.L./Elman, J.L., 1986. The TRACE model of speech perception. Cognitive Psychology 18: 1-86

93

lexikalische Kontext kann akustische Perzeption beeinflussen und Information oberhalb der

Wortebene kann direkten Einfluß auf die Verarbeitung der Wörter nehmen. Da das TRACE-

Modell ein konnektionistisches Modell ist, besteht es aus einer Vielzahl von einfachen, mit

einander verbundenen Verarbeitungseinheiten, die drei Verarbeitungsebenen bilden. Die

Einheiten auf der Eingabeebene stellen phonologische Merkmale dar, die wiederum mit

phonematischen Einheiten verbunden sind und diese sind nun mit den Ausgabeeinheiten

verbunden, die die Wörter repräsentieren. Wenn nun die Eingabeeinheiten aktiviert werden,

dann verbreitet sich diese Aktivierung im Netzwerk, so daß am Ende nur mehr eine aktivierte

Ausgabeeinheit übrig bleibt. Das ist nun jenes Wort, das das System erkannt hat. Alle

Verbindungen arbeiten in beide Richtungen, d.h. die Information kann in beide Richtungen

fließen, womit die Verarbeitung sowohl bottom-up als auch top-down erfolgen kann. Auf

jeder Ebene gibt es zwischen den Einheiten hemmende Verbindungen, was dazu führt, daß

sobald eine Einheit aktiviert ist, diese die Aktivierung von anderen, konkurrierenden

Einheiten hemmt.

Das Modell wird in einen Computer implementiert und die einzelnen Durchläufe der

Simulationen werden mit der menschlichen Sprachperzeption verglichen. So zeigt das Modell

z.B. bei einem ambigen Input – zwischen /p/ und /b/ - gefolgt von einer Endung, die „-lug“

entspricht, daß in diesem Fall /p/ erkannt wird. Ebenso wird von diesem Modell die

kategoriale Perzeption simuliert. Zusammenfassend gesehen, kann das TRACE-Modell gut

mit den Effekten des Kontexts umgehen und auch mit der akustischen Variabilität. Weiters

lassen sich damit auch der Effekt des Ersetzens von fehlenden Phonemen („phonemic

restoration effect“) und die Effekte der Koartikulation erklären.

112 McClelland, J.L./Rumelhart, D.E., 1981. An interactive activation model of context effects in letter perception: Part 1. An account of the basic findings. Psychological Review 88: 375-407

94

Allerdings lassen sich auch problematische Aspekte in diesem Modell feststellen. So führte

Massaro (1989113) ein Experiment durch, bei dem die Versuchspersonen eine

Entscheidungsaufgabe zwischen zwei Phonemen - /l/ und /r/ - durchzuführen hatten. Die

Kontexte für die Laute, die sie hörten, waren /s_i/, /p_i/ und /t_i/. Der erste Kontext

begünstigt /l/, der dritte begünstigt /r/ und der zweite begünstigt beiden Phoneme in einem in

etwa gleichen Ausmaß. Das Ergebnis war, daß der Kontext die Leistungen insofern

beeinflußte als die Versuchspersonen dazu neigten ein mehrdeutiges Phonem im Kontext von

/s_i/ als /l/ und im Kontext von /t_i/ als r zu identifizieren. Das Verhalten der

Versuchspersonen unterschied sich aber von dem des TRACE-Modells: In diesem Modell hat

der Kontext dann den größten Einfluß, wenn die Ambiguität des sprachlichen Signals am

größten ist und hat weniger Einfluß, wenn die Ambiguität geringer ist. Bei den Probanden

allerdings bleibt der Effekt des Kontexts in Bezug zur Ambiguität des Signals konstant. Trotz

der Veränderung des Modells114 scheinen die Probleme bestehen geblieben zu sein115.

Das Hauptproblem dieses Modells liegt in der Betonung des Kontexts – top-down

Verarbeitung – im Prozeß der Worterkennung. In einer Studie116 wurde festgestellt, daß

„eingebildete“ Phoneme – ähnlich dem „phonemic restoration effect“ – die aufgrund von

lexikalischen top-down Prozessen entstanden waren die Koartikulation beeinflussen können.

Die Koartikulation ist ja in Phänomen, das bei Perzeption auf der lautlichen Ebene eine Rolle

spielt, und sie wird auch im TRACE-Modell entsprechend simuliert. In Wortpaaren wie

„English (d)/(g)ates“ oder „copious (d)/(g)ates“ lag das erste Phonem des zweiten Wortes auf

einem Kontinuum zwischen /d/ und /g/. Aufgrund von koartikulatorischen Effekten beeinflußt

der letzte Laut des ersten Wortes die Produktion des ersten des zweiten Wortes. Die Hörer

113 Massaro, D.W., 1989. Testing between the TRACE model and the fuzzy logical model of speech perception. Cognitive Psychology 21: 398-421 114 McClelland, J.L., 1991. Stochastic interactive processes and the effect of context on perception. Cognitive Psychology 23: 1-44 115 Massaro, D.W./Cohen, M.M., 1991. Integration versus interactive activation: The joint influence of stimulus and context in perception. Cognitive Psychology 23: 558-614 116 Elman, J.L./McClelland, J.L., 1988. Cognitive penetration of the mechanisms of perception: Compensation for coarticulation of lexically restored phonemes. J. of Memory and Language 27: 143-165

95

sind sehr sensibel für diesen Effekt, so daß es eher der Fall ist, daß nach [] ein [d] gehört

wird, und nach [] eher ein [g]. Dieser Effekt wurde in dieser Studie beobachtet, und zwar

auch dann, wenn die beiden Auslaute durch einen Laut ersetzt wurden, der in der Mitte

zwischen [] und [s] lag. Dieses Ergebnis scheint eher ein interaktives als ein autonomes

Modell zu unterstützen. Allerdings lassen sich diese Daten auch als Ergebnis der Verwendung

von sequentieller Information bei der Perzeption von Lauten interpretieren. So ergab eine

andere Studie117, daß dieser Effekt auch bei der Kategorisierung von Verschlußkonsonanten

auftrat, selbst wenn ihnen bei Pseudowörtern ein ambiger frikativer Laut vorausging. Z.B.:

Bei einem Pseudowort wie „der-„ wird eher ein [s] als Fortsetzung erwartet und bei „nai-„

eher ein []. Tatsächlich lag der Laut zwischen diesen beiden. Diesen Pseudowörtern folgten

nun Wörter, die mit einem Verschlußkonsonanten des Kontinuums von [t] nach [k] – von

„tapes“ nach „capes – begannen. Die Identifikation des Verschlußkonsonanten wurde nun in

Abhängigkeit vom Kontext des Pseudowortes entsprechend beeinflußt. Da aber das

vorausgehende Element ein Pseudowort war, konnte wohl nicht das lexikalische Wissen

benutzt worden sein, was darauf hinweist, daß ein Wissen über die Abfolgemöglichkeiten von

Phonemen genützt wird.

Das TRACE-Modell kann zwar recht gut mit kontextuellen Effekten umgehen, aber es ist

zumindest fraglich, inwieweit seine Voraussagen auch durch empirische Befunde gestützt

werden.

117 Pitt, M.A./McQueen, J.M., 1998. Is compensation for coarticulation mediated by the lexicon? J. of Memory and Language 39: 347-370