24
Institut für Kommunikationsforschung und Phonetik Rheinische Friedrich-Wilhelms-Universität Bonn Hauptseminar: Intonation Leitung: Prof. Dr. W. Hess, Dr. T. Portele Sommersemester 1999 Strukturen 4 – Alternativen zum Tonsequenzmodell Das Kieler Intonationsmodell vorgelegt von Hubertus Becker Bonn, den 31. Oktober 1999

Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Embed Size (px)

Citation preview

Page 1: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Institut für Kommunikationsforschung und Phonetik

Rheinische Friedrich-Wilhelms-Universität Bonn

Hauptseminar: IntonationLeitung: Prof. Dr. W. Hess, Dr. T. Portele

Sommersemester 1999

Strukturen 4 – Alternativen zum TonsequenzmodellDas Kieler Intonationsmodell

vorgelegt vonHubertus Becker

Bonn, den 31. Oktober 1999

Page 2: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Copyright © 1999 by Hubertus Becker. Alle Rechte vorbehalten.

Page 3: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Inhaltsverzeichnis

1 Einleitung 1

2 Phonologische Kategorien 3

2.1 Akzent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Intonation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.1 Gipfel und Täler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.2 Gipfel- und Talkonkatenation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Prosodische Phrasierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4 Sprechgeschwindigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.5 Verzögerungsphänomene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Parametrische Regeln 11

3.1 Parameterwerte für Gipfel und Täler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2 Sequentieller Abstieg (Downstep) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.3 Mikroprosodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 TTS-Implementation 15

5 Résumé 17

Literaturverzeichnis 19

Page 4: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation
Page 5: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Kapitel 1

Einleitung

Das Kieler Intonationsmodell (KIM) ist am Institut für Phonetik und digitale Sprachverarbeitung der Univer-

sität Kiel von Klaus J. Kohler und Mitarbeitern im Laufe einer etwa zehnjährigen Forschungsarbeit entwickelt

worden. Die Hauptaufgabe von KIM besteht darin, mithilfe von symbolgesteuerter TTS-Synthese die Realisa-

tion von Spontansprache zu ermöglichen.

Ziel des Intonationsmodells ist es, phonologisch relevante Elemente zu etablieren und sie von ihren kontextbe-

dingten Modifikationen zu trennen. Aufbauend auf einigen Hypothesen wurden linguistische Daten analysiert

und mikro- und makroprosodische Muster mithilfe einer perzeptiven Auswertung in Hörtests und interakti-

ven Experimenten am Computer erforscht. Aufbauend auf diesen Ergebnissen konnte dann ein formalisiertes

Modell entwickelt und im RULESYS/INFOVOX-Sprachsynthesesystem implementiert werden.

Die Arbeit am Kieler Intonationsmodell wurde mit folgender Forschungsstrategie aufgenommen: Basierend auf

anfänglichen Hypothesen, die auf allgemeinem, linguistischem Wissen und Intuitionen beruhten, wurden syste-

matisch linguistische Daten gesammelt und analysiert. Diese Informationen wurden dann entsprechend modi-

fiziert und dienten dann zur Erweiterung der anfänglich aufgestellten Hypothesen. Aufgrund dieses Wissens

wurden weitere umfangreichere Experimente durchgeführt, die dann wiederum analysiert wurden und als Er-

weiterung der bereits bestehenden Hypothesen dienten. In jedem dieser Iterationsschritte konnte dann ein

immer umfassenderes Modell entwickelt und im RULESYS/INFOVOX-Sprachsynthesesystem implementiert

werden. Das Ziel dieses iterativen Prozesses beschreibt Kohler darin, ein voll generatives Modell zu entwickeln,

daß aufbauend auf symbolischen Eingabeketten Intonationskonturen erzeugt, welche dann perzeptiv getesten

und im Vergleich zur natürlichen Sprache ausgewerten werden können (vgl. Kohler 1991a). Die Systematik

dieser Forschungsmethodik ist in Abbildung 1.1 auf der nächsten Seite dargestellt.

Kohler stellt das Intonationsmodell ausdrücklich in die Tradition der britischen Schule nach Halliday (1967).

Die Intonationskonturen werden z. B. als Abfolge von ��-Gipfeln und ��-Tälern in Bezug auf ihre Synchroni-

sation in der segmentalen Struktur betrachtet. Dies steht im Gegensatz zur Tradition der amerikanischen Schule

(z. B. das Tonsequenzmodell), die die Grundfrequenzverläufe auf bestimmten Frequenzniveaus atomisiert (vgl.

Kohler 1991d,a; Möbius 1993).

Kohler kritisiert an anderen Intonationsmodellen, daß zuerst intonatorische Elemente postuliert und schließ-

lich auch implementiert werden. Erst dann wird die Frage nach der Funktion gestellt. Deshalb unterscheidet

sich KIM nach Kohlers Darstellung von anderen Modellen vor allem dadurch, daß syntaktische, semantische,

pragmatische und expressive Funktionen (meaning functions) schon bei der Erstellung des Intonationsmodells

Page 6: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

2 KAPITEL 1. EINLEITUNG

berücksichtigt und mikroprosodische Phänomene in KIM integriert werden, anstatt sie zu eliminieren (vgl.

Möbius 1993).

Das Intonationsmodell berücksichtigt neben der Mikroprosodie noch die folgenden Bereiche: Akzent (Wort-

und Satzakzent), Intonation, prosodische Phrasierung, Sprechgeschwindigkeit, Verzögerungsphänomene, Para-

meterwerte für Gipfel und Täler, sequentiellen Abstieg (Downstep).

Abbildung 1.1: Systematische Darstellung der Forschungsmethodik die bei KIM angewandtwurde (aus Kohler 1991a).

Page 7: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Kapitel 2

Phonologische Kategorien

2.1 Akzent

Nach Kohler muß der Akzent für das Deutsche unterschieden werden in Wortakzent und Satzakzent. Der Wort-

akzent wird als streng, binäres phonologisches Merkmal interpretiert, das in einer Silbe entweder vorhanden

oder nicht vorhanden ist. Die Realisierung erfolgt durch Lautdauer, Tonhöhenverlauf, Lautqualität und Laut-

stärke (vgl. Kohler 1977, 1991b,d). Der Satzakzent wird interpretiert als Manifestation in der lexikalischen

Akzentsilbe des satzakzentuierten Wortes, wobei aber nicht jede lexikalische Akzentsilbe auch gleichzeitig

einen Satzakzent erhält (vgl. Kohler 1998, 1991b).

Basierend auf diesen Definitionen entwickelte Kohler ein System von binären Akzentmerkmalen für das Into-

nationsmodell. Aufgrund der Verbindung des Wortakzents mit dem ��-Verlauf und mit der Dauer erhalten alle

Vokale Kombinationen der Akzentmerkmale ���������� und ���������� (vgl. Kohler 1991e). Somit

kann für jeden einzelnen Vokal der ��-Verlauf und die Dauer auf binärer Basis individuell bestimmt werden.

Der wortakzentuierende Vokal erhält in satzakzentuierten Wörtern die Kombination der Akzentmerkmale

����������������, in nichtakzentuierten Inhaltswörtern die Kombination ����������������, und

in nichtakzentuierten Funktionswörtern – ebenso wie in lexikalisch nichtakzentuierten Silben, auf denen kein

Satzakzent liegt – die Akzentmerkmalskombination ����������������. Wenn ein partiell deakzentuier-

ter Satzakzent auftritt, wird ��� �� zu ���������������� hinzugefügt. Alle anderen Vokale erhalten

zusätzlich das Akzentmerkmal ��� ��. Wörter, die eine weitere Verstärkung ausdrücken sollen, erhalten

außerdem an der Wortakzentposition das Merkmal �����, alle anderen Vokale erhalten hingegen das Akzent-

merkmal �����. Als abschließende Regel erhalten alle Vokale, die kein positives Satzakzentmerkmal tragen,

die Merkmalskombination ���������������� (vgl. Kohler 1998, 1991b,e).

Im obigen Regelsystem wurde bislang die Abhängigkeit zwischen dem ��-Verlauf und der Dauer nicht be-

rücksichtigt. Dies bedeutet, daß aus dem Regelsystem allein nicht ersichtlich ist, ob �������� nun wirklich

für eine längere Dauer verantwortlich ist oder nicht. Die Abhängigkeit von �������� und ����������,

hängt laut Kohler von den Regeln der Grammatik und vom Kontext der Situation in der Kommunikation ab. Sie

müssen durch die linguistische Umgebung der prosodischen Phonologie unterstützt werden (siehe Kapitel 4 auf

Seite 15). Dasselbe gilt auch für den Parameter ��� �� (vgl. Kohler 1998, 1991b).

Damit das Modell nicht nur die zwei Betonungsstufen betont (�����) und unbetont (�����) produzie-

ren kann, wird das Modell um den numerischen Parameter ������� erweitert. Vokale mit dem Merkmal

Page 8: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

4 KAPITEL 2. PHONOLOGISCHE KATEGORIEN

����� werden hierbei mit ������� markiert, der die Qualität der Akzentuierung durch den numerischen

Parameter � festlegt, mit � � �� �� � � � � �. Vokale mit dem Merkmal ����� bekommen dann den Wert

������� zugewiesen. Diese Vokale stechen um so mehr hervor, je höher die Akzentuierungsebene, also der

Parameter �, ist (vgl. Kohler 1998, 1991b).

Da diese Hervorhebung auch in Gipfel- und Talkonturen (siehe Abschnitt 2.2.1) deutlich werden soll, müssen

hier zwei Fälle unterschieden werden. Im Fall von ��-Gipfelkonturen wird die Hervorhebung durch ein An-

heben des ��-Maximums erreicht, während im Fall von ��-Talkonturen der finale ��-Punkt in Übereinstim-

mung mit der Akzentuierungsebene erhöht wird. Ein Sonderfall ergibt sich, wenn man diese Hervorhebung auch

in nichtfinalen Gipfeln innerhalb einer Gipfelabfolge ausdrücken will. Hier kann die erwünschte Hervorhebung

nicht einfach durch ein Anheben der ��-Gipfelkontur bzw. der ��-Talkontur erreicht werden, sondern nur durch

die Hinzunahme eines schnelleren Abfalls in Verbindung mit einer im Verhältnis zur Akzentuierungsebene ste-

henden Erniedrigung des ��-Minimums zwischen den Gipfeln (vgl. Kohler 1998, 1991b).

Kohler betrachtet die Verstärkung also als ein Mittel, um Wörter und Ausdrücke in Sätzen in den Mittelpunkt

zu stellen. Dies gilt besonders dann, wenn die Zunahme von Intonationskonturen an sicheren, strukturellen

Elementen mit der Deakzentuierung von anderen verbunden ist (vgl. Kohler 1998, 1991b).

Im folgenden werden nochmals die von Kohler vorgeschlagenen Satzakzentmerkmale, die eine umfassende und

kontrastreiche Kategorisierung der deutschen prosodischen Phonologie erreichen sollen, zusammengefaßt:

„����������, ����������, ����� ��, �������, �������, with � � �� �� � � � � �.“(Kohler 1991b)

2.2 Intonation

2.2.1 Gipfel und Täler

Alle Vokale mit primärem oder sekundärem Satzakzent, den Kohler gleichsetzt mit deakzentuiert, erhalten Into-

nationsmerkmale. Diese Intonationsmerkmale klassifizieren entweder einen unidirektionalen ��-Abfall, spezi-

fiziert als �������, oder einen erneuten Anstieg zum Ende hin, bezeichnet als �������. Dabei werden Tä-

ler durch ��� ��� und Gipfel durch ��� ��� beschrieben. Nach Kohler kann man die Merkmale der Täler

noch weitgehend differenzieren. So werden Täler mit einem leichten Anstieg, z. B. in einer Weiterführung, mit

������ und Täler mit einem hohen Anstieg, z. B. in Fragen, mit ������ spezifiziert. Um nach Kohler die

Wendepunkte der Gipfel (��-Maxima) und Täler (��-Minima) genauer betrachten zu können, wird die Kate-

gorie ���� ��� eingeführt. In einem Vokal kann ein Wendepunkt somit, abhängig von �������������,

entweder früh (klassifiziert als �� ���) oder spät (klassifiziert als �� ���) auftreten. Somit generiert

�� ��� in einem Tal einen Anstieg vor dem betonten Vokal und �� ��� einen Anstieg deutlich nach dem

Vokalanfang. Für Gipfel muß nach Kohler das Merkmal �� ��� genauer unterteilt werden in ����� �,

da hier der Gipfel entweder in der Nähe des akzentuierten Vokalzentrums oder erst am Ende gelegen auftreten

kann. Deshalb wird ��� � gesetzt, wenn der Gipfel sich in der Mitte befindet, und ��� �, wenn der An-

stieg erst in der Mitte des Vokals oder kurz dahinter beginnt (vgl. Kohler 1998, 1991b). Die Merkmalshierarchie

für die Intonation ist in Abbildung 2.1 auf der gegenüberliegenden Seite dargestellt.

Page 9: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

2.2. INTONATION 5

Abbildung 2.1: Die Merkmalshierachie für die Intonation (aus Kohler 1991d).

Anhand der oben beschriebenen Merkmale kann man nun die verschiedenen Gipfelverläufe bezüglich der

Initialisation ihres Anstiegs näher charakterisieren. Allen Gipfeltypen ist dabei als Merkmal gemeinsam, daß

sie sich durch einen schnellen ��-Anstieg auszeichnen, wobei der Anstieg durch die Nähe von satzakzentu-

ierten Silben begrenzt ist. Die durch diese Silben gesetzten Grenzen sind für die verschiedenen Gipfeltypen

unterschiedlich. Im Fall eines frühen Gipfels ist dieser Anstieg, dem der Anfang einer satzakzentuierten Silbe

vorausgeht, gewöhnlich von geringer zeitlicher Ausdehnung. Das bedeutet, daß die Steigung besonders hoch

sein muß, damit der Gipfel in dieser kurzen Zeitspanne auch das ��-Maximum erreichen kann. Beim mittle-

ren Gipfel findet die Ausdehnung des Anstiegs in der ersten Hälfte des akzentuierten Silbenkerns statt und im

Fall des späten Gipfels wird der Anstieg erst nach dem Einsetzen des akzentuierten Vokals initialisert. Um den

exakten Zeitverlauf eines maximalen Gipfelwertes zu bestimmen, muß zusätzlich noch der Vokaltyp betrachtet

werden. Kohler unterscheidet hierbei zwischen der Dauer von Quantität und Qualität, nachfolgenden stimmhaf-

ten/stimmlosen Konsonanten und der Anzahl von unmittelbar folgenden, nichtakzentuierten Silben. Außerdem

kann vor der Erhöhung eine leichte Ausdehnung von �� im akzentuierten Vokal auftreten. Nachdem das Gip-

felmaximum erreicht ist, fällt �� sehr schnell ab. Dies gilt besonders vor nachfolgenden, nichtakzentuierten

Silben. Die Konkatenation von Gipfeln stellt eine Besonderheit dar (siehe Abschnitt 2.2.2 auf der nächsten

Seite). Eine systematische Repräsentation der drei ��-Gipfelkonturen ist in Abbildung 2.2 dargestellt (vgl.

Kohler 1998, 1991b,d).

Abbildung 2.2: Systematische Repräsentation der drei ��-Gipfelverläufe: früh, mittel und spät.Die gepunktete Linie �on markiert den Einsatz der akzentuierten Silbe (aus Kohler 1991d).

Page 10: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

6 KAPITEL 2. PHONOLOGISCHE KATEGORIEN

Die drei Gipfeltypen haben nicht nur unterschiedliche Positionen, es liegt ihnen nach Kohler auch eine unter-

schiedliche Bedeutung zugrunde:

„(a) early: established fact; no room for discussion; final summing up of argument; (b) medial:new fact; open for discussion; starting a new argument; (c) late: emphasis on a new fact andcontrast to what should exist or exists in the speaker’s or hearer’s idea.“ (Kohler 1991d)

Durch das Verschieben eines Gipfels von der frühen Position nach hinten ändert sich also die zugrundeliegende

Interpretation einer Aussage von „bekannt“ nach „neu“ (vgl. Kohler 1991d).

Von den am Anfang dieses Abschnittes beschriebenen Merkmalen ausgehend kann man auch die verschiede-

nen Talverläufe charakterisieren. Den beiden Taltypen (�� ��� und �� ���) ist dabei gemeinsam, daß

sie beide einen ununterbrochenen ��-Anstieg aufweisen und sich dabei bis zum Anfang der nachfolgenden,

satzakzentuierten Silbe ausdehnen. Der Unterschied liegt darin, wann der Anstieg initialisiert wird. Im Fall

von �� ��� startet der Anstieg vor dem akzentuierten Silbenkern und bei �� ��� innerhalb des Silben-

kerns. Ein Problem bei der Realisation von Gipfel- und Talverläufen tritt laut Kohler immer dann auf, wenn

mehrere nichtakzentuierte Silben zwischen zwei Satzakzenten vorkommen. Ein Tal wird dann so realisiert, daß

ein mehr stufenweiser ��-Anstieg durchgeführt wird. Im Falle eines späten Gipfels wird der Anstieg jedoch

viel schneller realisiert, so daß die kleineren Abstände zwischen den akzentuierten Silben hier schwieriger zu

behandeln sind. Die Abstände müssen dann dazu benutzt werden, um zwischen einem Tal und einem Gip-

fel bzw. zwischen einer späten Gipfel- und einer Gipfelsequenz unterscheiden zu können. Dies gilt besonders

dann, wenn dort kein kurzer ��-Abfall (dip) zwischen dem ��-Maximum des ersten und dem ��-Maximum

des zweiten Akzents vorkommt, wie dies in Hutmustern der Fall ist (vgl. Kohler 1998, 1991b).

Die zwei Taltypen unterscheiden sich nicht nur aufgrund ihrer Position, sondern nach Kohler auch hinsichtlich

ihrer Bedeutung. �� ��� wird mit Gleichgültigkeit („casualness“) und �� ��� mit Engagement („in-

volvement“) beschrieben (vgl. Kohler 1991d).

Hier werden nochmals die von Kohler vorgeschlagenen Intonationsmerkmale, die eine umfassende und kon-

trastreiche Kategorisierung der deutschen prosodischen Phonologie erreichen sollen, zusammengefaßt:

„���������, ����� ���, ��������, ���� ���, ����� �, �������,�������, with � � �� �� � � � � �.“ (Kohler 1991b)

2.2.2 Gipfel- und Talkonkatenation

Da im Prinzip alle möglichen Kombinationen von frühen, mittleren und späten Gipfeln möglich sind, unter-

scheidet Kohler, ob eine Konkatenierung erlaubt ist oder nicht. Dies stellt insofern ein Problem dar, da laut

Kohler die syntaktischen und die semantischen Einschränkungen bislang nicht vollständig bekannt sind (vgl.

Kohler 1991b).

Um den Rahmen dieser Arbeit nicht zu sprengen, beschränke ich mich darauf, nur diejenigen Regeln anzu-

geben, die benutzt werden, wenn eine prosodische Phrasierung (siehe Abschnitt 2.3 auf Seite 8) zwischen

Gipfelkonkatenationen vorliegt oder nicht vorliegt.

Für den Fall, daß keine prosodische Phrasierung zwischen einer Gipfelkonkatenation auftritt, kann das Ereig-

nis eintreten, daß �� zu tief oder auf eine dazwischenliegende Ebene fällt. Da laut Kohler dieser Abfall einen

Page 11: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

2.2. INTONATION 7

Einfluß auf die zwischen den Gipfel liegenden nichtakzentuierten Silben hat, müssen für den unmittelbar an-

schließenden Anstieg zwei Fälle unterschieden werden. Treten zwischen den zwei Gipfel nichtakzentuierte

Silben auf, wird der unmittelbar anschließende Anstieg in Abhängigkeit von der Gipfelposition in der Nähe

der folgenden akzentuierten Silbe realisiert. Anderenfalls, wenn keine nichtakzentuierten Silben zwischen den

Gipfeln vorkommen, ist es möglich, daß der kurze Abfall zwischen allen Gipfelpositionen entsprechend ange-

paßt wird. Diese Anpassung findet jedoch nicht zwischen einem späten und einem frühen Gipfel statt, da in

diesem Fall ein Hutmuster erzeugt wird, welches den Anstieg des späten Gipfels und den Abfall des frühen

Gipfels in einer zweistufigen Akzentsequenz kombiniert (vgl. Kohler 1991e). Als weitere Einschränkung darf

in solch einem Hutmuster initial kein früher Gipfel und nicht-initial kein später Gipfel auftreten (vgl. Kohler

1998).

Hutmuster fallen, laut Kohler, in dieselbe Kategorie bezüglich Tonmustern wie die Gipfel, obwohl für den Fall,

wenn mehr als zwei Akzente in einem Hutmuster eng miteinander verbunden sind, der nicht-initiale und der

nicht-finale Akzent in Verbindung mit der Gipfelposition unspezifziert ist. Diese Unspezifiziertheit begründet

Kohler damit, daß weder ein Anstieg noch ein Abfall ohne weiteres in den sequentiellen Abstieg der Gipfel-

maxima integriert werden kann (vgl. Kohler 1998, 1991e). Ein Beispiel für ein Hutmuster ist anhand einer

Ausgabe des RULESYS/INFOVOX-Sprachsynthesesystems in Abbildung 2.3 dargestellt.

Abbildung 2.3: Beispiel für ein Hutmuster anhand der Ausgabe des RULESYS/INFOVOX-Sprachsynthesesystems der symbolischen Eingabe „��� ��� �!�""�" ## $�� �"%“ (ausKohler 1991b).

Nach Kohler tritt ein schwer zu entscheidender Fall ein, wenn ein zweifach akzentuierter Anstieg-Abfall auf-

tritt. Hier kann nämlich nicht eindeutig entschieden werden, ob der Anstieg ein Tal oder einen späten Gipfel

repräsentiert. In einem Hutmuster entscheidet sich Kohler dann dafür, daß diese Kontur einen späten Gipfel

symbolisiert (vgl. Kohler 1998).

Für den Fall, daß eine prosodische Phrasierung zwischen einer Gipfelkonkatenation auftritt, sind fast alle

Gipfel- bzw. Talsequenzen möglich. Weil das Hutmuster laut Kohler ein sehr hohes Maß an Kohäsion darstellt,

ist es hiervon aber generell ausgeschlossen (vgl. Kohler 1998).

Eine vollständige Auflistung aller Restriktionen für Gipfel- und Talkonkatenationen befindet sich in Kapitel 3

von Kohler (1991b).

Page 12: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

8 KAPITEL 2. PHONOLOGISCHE KATEGORIEN

2.3 Prosodische Phrasierung

Nach Kohler liegt eine Aufgabe der Phonologie darin, die sequentiellen Strukturierungen von stimmlichen Aus-

drücken und Gesprächen deutlich zu machen. Die ermittelten sequentiellen Strukturierungen können anschlie-

ßend weiter untersucht und so, zumindest partiell, auf ihre hierarchische Organisation geschlossen werden.

Weiterhin können die so ermittelten sequentiellen Strukturierungen auf ihre prosodischen Phrasierungen unter-

sucht werden. Diese erachtet Kohler in bezug auf das Intonationsmodell für besonders wichtig, da ein Zuhörer

den syntagmatischen Aufbau von Nachrichten in Übereinstimmung mit der Intention des Sprechers nur dann

dekodieren kann, wenn im Sprachsignal Markierungen auftreten, die dem Zuhörer die Grade der Kohäsion oder

der Trennung zwischen Ausdrücken, Sätzen bzw. Äußerungen angezeigen (vgl. Kohler 1998, 1991c).

Die Parameter, die dies laut Kohler leisten, sind Pausendauer, ausdruck-finale segmentale Verlängerung und

Skalierung von ��-Endpunkten an den verschiedenen Phrasierungen. Im bezug auf das Intonationsmodell

können sie dort durch parametrische Regeln (siehe Kapitel 3 auf Seite 11) bei geeigneter symbolischer Ein-

gabe realisiert werden (vgl. Kohler 1998, 1983b).

Die größer werdenden Grade der Freiheit können laut Kohler durch die bisherigen Kenntnisse der prosodi-

schen Phrasierung reduziert werden, indem Beschränkungen zwischen den drei Parametern eingeführt werden.

So werden nur Notwendigkeiten markiert und eine ausreichende Anzahl von phonologischen relevanten Unter-

scheidungen getroffen. In der Diskussion des Artikels (Kohler 1983b, S. 131ff.) gibt Kohler ein verbalisiertes

Regelsystem für die prosodische Strukturierung von Informations- und Rhythmuseinheiten an. Die Reduzie-

rung kann zur Zeit jedoch nur bis zu einem bestimmten Grad durchgeführt werden, da bislang die linguistischen

und phonetisch relevanten Kategorisierungen noch nicht ausreichend sind (vgl. Kohler 1998).

2.4 Sprechgeschwindigkeit

Da ein Sprecher die Sprechgeschwindigkeit während einer sprachlichen Äußerung variieren kann und diese

Variation auch einen Einfluß auf die ��-Ebenen hat, muß dieses Phänomen ebenfalls im Intonationmodell

nachgebildet werden. Zur Untersuchung dieser Problematik, führte Kohler umfassende Studien durch und ver-

öffentlichte die Ergebnisse in den Artikeln Kohler (1983a) und Kohler (1986). Basierend auf diesen Ergebnis-

sen stellt Kohler fest, daß sich die Sprechgeschwindigkeit eines Sprechers nicht nur in der segmentalen Dauer

sondern ebenfalls in der Positionierung von �&�' innerhalb eines akzentuierten Vokals verändert. Die Verän-

derung in der segmentalen Dauer hängt von der Variierung der Grade für verschiedene Segmentaltypen, z. B.

Vokale versus Konsonanten, ab. Die Veränderung für �&�' innerhalb eines akzentuierten Vokals wird durch

Variierung von langsamer und schneller Geschwindigkeit in bezug auf die Entfernung zum akzentuierten Vokal

durchgeführt (siehe Abschnitt 3.1 auf Seite 11). Dies beinhaltet nach Kohler einen langsameren oder schnelle-

ren Anstieg und Abfall, wodurch die wahrnehmenden Tonebene herunter oder heraufgesetzt wird (vgl. Kohler

1998, 1991b).

Dies hat laut Kohler entscheidende Konsequenzen für die Genauigkeit der Beschreibung des ��-Verlaufes,

da durch die schnelleren Bewegungen in Wendungen ein Punkt erreicht wird, wo eine vollständige ��-

Beschreibung nicht länger durchgeführt werden kann. Denn nach Kohler sind die Gipfel- und Talminima die

wesentlichen Zielwerte, die durch den Sprecher kontrolliert werden. Dies wirft ein weiteres Problem auf, da

die Einordnung von ��-Bewegungen in stimmlichen Ausdrücken besonders niedrige Werte betrifft. Das hat zur

Page 13: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

2.5. VERZÖGERUNGSPHÄNOMENE 9

Konsequenz, daß da, wo man eigentlich eine möglichst exakte Beschreibung des ��-Verlaufes benötigt, nur

relativ ungenaue Stützstellen für eine Interpolation zwischen den ��-Punkten (siehe Abschnitt 3.3 auf Seite 13)

dem Modell zur Verfügung stehen (vgl. Kohler 1998, 1991b).

In Kohler (1990b) wird festgestellt, daß die Kontrolle der Sprechgeschwindigkeit mit artikulierender Reduktion

und sorgfältiger Ausführung verbunden ist. Dies hat im Intonationsmodell in der Kategorie Sprechgeschwin-

digkeit die Konzequenz, daß ganze Blöcke von parametrischen Regeln die mit ��-Zeitverläufen, ��-Mustern,

Segmentdauer und segmentaler Anspassung (Koartikulation, Reduktion, Verstärkung, Auslassung) zusammen-

hängen, aktiviert werden müssen. Da die Kategorisierungen zwischen den einzelnen Parametern zur Zeit jedoch

nur bis zu einem bestimmten Grad bekannt sind, sind laut Kohler noch weitere Untersuchungen auf diesem Ge-

biet nötig, um verbesserte Regeln für das Intonationsmodell aufstellen zu können (vgl. Kohler 1998).

2.5 Verzögerungsphänomene

In einem spontanen Sprechvorgang treten immer wieder vor dem Erreichen eines Abschlusses Kontinuitäts-

störungen ein. Zu den Verzögerungsphänomenen beim Sprechen gehören Pausen, Atmung, Häsitationspartikel

(z. B. „äh“, „öh“, „ahm“ oder „ehm“, siehe Kohler et al. (1998a)) und verzögernde Längung. Weiterhin kann es

vorkommen, daß der Sprechakt nicht fortgesetzt, sondern möglicherweise ein neuer Sprechakt zu einem neuen

Gedanken begonnen wird. In diesem Fall handelt es sich dann um einen Abbruch. Zu einer Unterbrechung

kommt es, wenn der Sprechakt nach einer Pause und/oder einer Häsitation ohne Wiederholung oder Korrektur

fortgesetzt wird. Ebenfalls kann es vorkommen, daß der Sprechakt nach dem Abbruch durch einfache Wieder-

holung oder durch eventuelle Korrektur eines Teils des breits Gesagten fortgesetzt wird. Tritt dies ein, handelt

es sich dann um eine Wiederaufnahme (vgl. Kohler et al. 1994).

Diese phonetischen Phänomene müssen für Spontansprache ebenfalls im Intonationsmodell berücksichtigt und

durch geeignete symbolischer Eingabe entsprechend modelliert werden.

Page 14: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation
Page 15: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Kapitel 3

Parametrische Regeln

3.1 Parameterwerte für Gipfel und Täler

Im Fall von mittleren Gipfeln werden zwei signifikante ��-Punkte bestimmt. Der erste, bezeichnet mit ��',

wird am Anfang derjenigen Silbe positioniert, die den ��������-Vokal enthält, während der zweite, �&�',

in der Nähe des Vokalzentrums positioniert wird. Der genaue zeitliche Ablauf des zweiten ��-Punktes nach

dem betontem Vokalanfang steht in Abhängigkeit von der Vokalqualität, der Vokalhöhe, der Anzahl der nach-

folgenden nichtakzentuierten Silben und der Position im stimmlichen Ausdruck. Die Berechnung dieses Zeit-

punktes nach dem Vokalanfang beruht auf der Grundlage der Regeln für die segmentale Dauer der deutschen

Sprache. Kohler hat sie den von Klatt (1979) vorgeschlagenen Prinzipien für die synthetischen Regeln der

englische Sprache entnommen (siehe Kohler 1988). Diese Regeln definieren die veschiedenen Segmentklassen

(z. B. Diphtonge versus langen versus kurzen Vokalen, niedrigen versus hohen Vokalen) durch Wertpaare für

die eigentliche (��) und für die minimale Dauer (�(�"). Mithilfe dieser Wertpaare werden die tatsächlichen

Dauern in den verschiedenen segmentalen, prosodischen und syntaktischen Kontexten durch die Anwendung

der folgenden Regeln generiert:

(�) ���� ) �*����(�"+,������-''��(�"

(�) ������ ) ������,�����-�-''%

In der ersten Regel wird ����� mit dem Wert ��� initialisert. Die zweite Regel ändert dann den �����-Wert

sukzessiv durch Einführung des �����--Wertes ab. Dies bedeutet, daß jederzeit alle Faktoren, die die segmen-

tale Dauer beeinflussen, in spezifischen Regeln durch Einfügung eines neuen �����--Wertes miteinbezogen

werden können. Dieses Modell geht davon aus, daß alle die Dauer betreffenden Faktoren unabhängig vonein-

ander sind und keinen Einfluß auf andere Parameter des Modells, mit Ausnahme der Dauer, haben. So wird

garantiert, daß nur diese Faktoren die minimale Dauer der segmantalen Zeitsteuerung beeinflussen. Um jedoch

eine bessere Approximation der Zeitsteuerung in der deutschen und englischen Sprache zu erreichen, führt

Kohler, entgegen der oben beschriebenAnnahme für das Modell, zwei Parameter ein, die nicht nur einen Ein-

fluß auf die Dauer besitzen. Diese Ausnahme betrifft den �&�'-Wert, der nun auch mit einer Beeinflussung

durch die Sprechgeschwindigkeit und durch die Aspiration ( �) bestimmt wird. Diese Ausnahme begründet

Kohler damit, daß so eine akzeptablere, prosodische Sprachsynthese erreicht werden kann. Der �&�'-Wert

muß deshalb durch folgende Regel generiert werden (vgl. Kohler 1998, 1991b):

(�) ������������� ) ��&�' . **����(�"+,������-''��(�"+,'%/��� �,'%01

Page 16: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

12 KAPITEL 3. PARAMETRISCHE REGELN

Bei satzfinalen, mittleren Gipfeln wird als ein dritter ��-Punkt �2�' bestimmt. Dieser ��-Punkt wird so defi-

niert, daß er bei mittlerer Sprechgeschwindigkeit (siehe Abschnitt 2.4 auf Seite 8) ���ms nach dem Gipfelma-

ximum auftritt. Im Falle von nichtfinalen Gipfeln wird das Gipfelwertmaximum von einem ��������-Vokal

mit dem letzten ��-Basispunkt des nächsten ��������-Vokals verbunden. Die absolute ��-Gipfelposition

wird dabei nicht durch Vokalmodifikationen in Zusammenhang mit betontem/unbetontem Kontext, Anzahl der

Silben im Wort, Satzposition usw., beeinflußt. Diese Verbindung beeinflußt hingegen nur die relative Vokalver-

kürzung oder Vokalverlängerung, die dadurch näher oder weiter weg zum Ende verschoben wird. Nach Kohler

wird diese mikroprosodische ��-Abflachung vor unbetonten Obstruenten durch die im Intonationsmodell ein-

gebauten Regeln automatisch durchgeführt (vgl. Kohler 1998, 1991b).

Somit tritt in ausdrucksfinalen kurzen, einsilbigen Wörtern, die in unbetonten Konsonanten enden, ein abge-

flachter ��-Gipfelabfall auf. Dies ist laut Kohler notwendig, da nur so dasselbe perzeptive Gipfelmuster wie

in anderen nichtabgeflachten Kontexten erzeugt werden kann. Der Zuhörer kann somit die unterliegende Be-

ständigkeit mithilfe von absoluten ��-Gipfelpositionen, innerhalb desselben Vokaltyps, wahrnehmen. Somit ist

es dem Zuhörer auch möglich eine Differenzierung zwischen unterschiedlichen Vokaltypen, unbeachtet von

kontextbedingten Anpassungen, durchzuführen (vgl. Kohler 1998, 1991b).

Der Maximalwert eines frühen Gipfels befindet sich am Anfang der mit �������� markierten Silbe. Der

��'-Wert liegt ���ms davor und der �2�'-Wert, in satzfinaler Position, in einem Gebiet, wo der mittlere Gipfel

sein Maximum besitzt (vgl. Kohler 1998, 1991b).

In einem späten Gipfel ist der ��'-Wert am selben ��-Punkt gelegen wie in einem mittleren Gipfel. Der �&�'-

Wert wird an die Stelle gesetzt, wo ein mittlerer Gipfel sein Zentrum besitzt. Der �2�'-Wert wird an eine

���ms spätere Stelle plaziert. Wenn der Abstand kleiner als ���ms ist, dann wird �2�' an das Ende des letzten,

betonten Segments eines nichtfinalen, einsilbigen Wortes gesetzt. Falls eine nichtakzentuierte Silbe folgt, fällt

�2�' mit dem Anfang des nichtakzentuierten Vokals zusammen. In ausdruckfinalen Positionen wird ein vierter

��-Punkt �3�', der ���ms nach dem dritten ��-Punkts auftritt, bestimmt (vgl. Kohler 1998, 1991b).

Täler haben ihre linke und zentrale ��-Position an denselben Positionen wie ��' und �&�' in mittleren Gipfeln.

In einem frühen Tal ist die linke ��-Position die niedrigste, wohingegen dies in nicht-späten Tälern der zentrale

��-Punkt ist. In beiden Fällen befindet sich der rechte, hohe ��-Punkt am Ende des letzten betonten Segmentes

(vgl. Kohler 1998, 1991b).

3.2 Sequentieller Abstieg (Downstep)

Aufbauend auf interaktiven Tests am RULESYS/INFOVOX-Sprachsynthesesystem kommt Kohler zu dem

Schluß, daß Deklination – d. h. die feststehende, zeitliche Absenkung von �� – kein Merkmal der sponta-

nen Sprachproduktion ist. Deshalb wurde sie im Kieler Intonationsmodell durch einen sequentiellen Abstieg

(downstep) ersetzt, der sich durch eine strukturell bedingte Absenkung von Satzakzent zu Satzakzent aus-

zeichnet. In diesem Punkt unterscheidet sich KIM wesentlich von anderen Intonationsmodellen, z. B. dem

IPO-Intonationsmodell (’t Hart und Cohen 1973; ’t Hart und Collier 1975) und dem Lunder Intonationsmodell

(Bruce 1977; Gårding 1983), da hier nicht die Deklination sondern der sequentielle Abstieg eine Anpassung

der ��-Konturen modelliert.

Die im Kieler Intonationsmodell benutzten sequentiellen Abtiegswerte belaufen sich vom Gipfelmaximum zum

Page 17: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

3.3. MIKROPROSODIE 13

Gipfelminimum auf � und vom Gipfelmaximum zur nächsten Basis auf �. In Tälern werden sowohl die

niedrigen als auch die hohen ��-Werte sequentiell um � erniedrigt. Der sequentielle Abstieg kann jederzeit

durch das Merkmal ����� oder durch einen gesteuerten Neueinsatz (reset) unterbrochen werden. Neben

dem automatischen, sequentiellen ��-Abstieg muß auch die gezielte Umkehrung, der Aufstieg (upstep), in die

parametrischen Regeln aufgenommen werden (vgl. Kohler 1998, 1991b).

3.3 Mikroprosodie

Mikroprosodische Phänomene werden laut Kohler ausdrücklich in KIM integriert, anstatt wie in anderen Into-

nationsmodellen eliminiert zu werden (siehe Kapitel 1 auf Seite 1). KIM unterscheidet in der Modellierung der

Intonation zwei Ebenen (vgl. Kohler 1998, 1991b):

• Phonologisch kontrollierte, prosodische Muster werden durch eine sehr begrenzte Zahl von signifikanten

��-Punkten definiert.

• Die Ausgabe von aufeinanderfolgenden ��-Konturen wird von artikulatorisch relevanten Modifikationen

beeinflußt (siehe Kohler 1990a).

Laut Kohler impliziert diese Zweiteilung die Annahme, daß die Gipfel- und Talmuster sich unabhängig, in

einem konkreten physikalischen und physiologischen Sinn zur Sprachproduktion entwickeln. Sie werden durch

die im Vokaltrakt auferlegten Zwänge ebenfalls mikroprosodisch modifiziert. Im Besonderen muß zwischen

fünf Gebieten der mikroprosodischen Anpassung der bislang aufgeführten signifikanten Punktmustern unter-

schieden werden (vgl. Kohler 1998, 1991b):

1. In geschlossenen Vokalen mit mittlerem Gipfel wird der Gipfel um den Faktor ���, im Vergleich zu

allen anderen Vokalen, erhöht.

2. Zwischen den durch Regeln angepaßten signifikanten ��-Punkten muß nach einem vorgegebenen Algo-

rithmus interpoliert werden.

3. Nach unbetonten Obstruenten muß der ��-Wert am Vokalbeginn durch eine additive Konstante um ��

Hz erhöht werden. Eine Ausnahme ergibt sich beim Merkmal �&�', da dort keine Erhöhung eintritt.

4. In betonten Plosiven werden alle ��-Werte um �� Hz und in anderen betonten Konsonanten um � Hz

erniedrigt.

5. �� wird in unbetonten Ausdehnungen maskiert.

Page 18: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation
Page 19: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Kapitel 4

TTS-Implementation

Um die Prosodiesteuerung in der automatischen, akustischen Umsetzung deutscher orthographischer Texte zu

ermöglichen, ist KIM in seiner Gesamtstruktur und im RULESYS/INFOVOX-Sprachsynthesessystem (Carlson

und Granström 1975; Carlson et al. 1982, 1989; Carlson und Granström 1991) implementiert worden. Dieses

Spachsynthesesystem stellt KIM eine pragmatische, semantische und syntaktische Umgebung zur Verfügung

(vgl. Kohler 1998, 1991b). Die Umgebung des Kieler Intonationsmodells ist in Abbildung 4.1 auf der folgenden

Seite dargestellt.

Die Eingaben in das Modell bestehen aus symbolischen Eingabeketten in phonetischer Notation, die zustätz-

lich mit pragmatischen, semantischen und syntaktischen Markierungen ausgestattet sind. Die pragmatischen

und semantischen Markierungen lösen z. B. den pragmatischen oder semantischen bedingten Gebrauch von

Gipfel- und Talverläufen aus oder bestimmen den Satzfokus. Die Wortakzentposition kann größtenteils durch

Regeln bestimmt werden und syntaktische Strukturregeln markieren Deakzentuierung und Verstärkung in Wort,

Phrase, Satzteil und Satzkonstruktion. Die phrasale Akzentuierung hingegen muß auf einer abstrakten und sym-

bolischen Ebene in der syntaktischen Komponente des Modells bestimmt und in der Eingabekette des Modells

dargestellt werden (vgl. Kohler 1998, 1991b).

Es ist also eine umfangreiche linguistische Vorverarbeitung nötig, um die relevanten syntaktischen, seman-

tischen und pragmatischen Parameter zu bestimmen. Aus der Vorverarbeitung können dann diejenigen Infor-

mationen gewonnen werden, die zur Generierung der prosodischen Markierungen für die jeweilige Eingabeket-

te benötigt werden. Da diese automatische Vorverarbeitung derzeit weitgehend nicht verfügbar ist, müssen die

prosodischen Markierungen überwiegend manuell in den orthographischen Text eingefügt werden, wenn das

Intonationsmodell seine volle Leistungsfähigkeit ausnutzen soll. In entsprechend markierten Texten können

alle im 2. und 3. Kapitel erwähnten Bereiche im Intonationsmodell realisiert werden. Bei unmarkierten Texten

wird eine vereinfachte, standarisierte Prosodiesteuerung verwendet, die in zusammenhängenden Texten nicht

immer eine dem Kontext entsprechende und semantisch passende Prosodie generiert (vgl. Kohler 1998).

Für KIM ist ein rechnerverarbeitbares Symbolsystem für die prosodischen Kategorien entwickelt worden,

welches einen �-Bit ASCII Kode benutzt. Dieses System besteht aus zwei Kategorien von Regeln: Zum einen

sind dies die symbolischen, überwiegend binären, distinktiven Merkmale und zum anderen die numerischen

Parameterwerte. Eine vollständige Auflistungen mit vielen Beispielen aller Regeln der prosodischen Markie-

rungen sind in PROLAB (prosodic labelling system for read spontaneous speech in German) zusammengefaßt

und lassen sich ohne Einschränkungen auch auf KIM anwenden (siehe Kohler et al. 1995). Unter Kohler (1998)

Page 20: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

16 KAPITEL 4. TTS-IMPLEMENTATION

Abbildung 4.1: Die Umgebung des Kieler Intonationsmodells (aus Kohler 1991b).

finden sich außerdem einige abspielbare Audiodateien, die mit KIM erzeugt wurden.

Durch die Implementation von KIM in das Spachsynthesesystem wurde es möglich, die Auswirkungen der

aufgestellten Regeln auf synthetische Sprache auditiv zu beurteilen und hypothesengesteuerte Strategien zur

Verbesserung der Regeln zu verfolgen (siehe Kapitel 1, vgl. Möbius 1993). Kohler bemerkt dazu:

„The model implementation can also become a research tool for interactive tests which allow theinvestigator to look at, and listen to, the consequences resulting from systematic changes in thesymbolic and paramteric rules.“ (Kohler 1991d)

Page 21: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Kapitel 5

Résumé

Die vorliegende Hausarbeit entstand im Rahmen eines Hauptseminars zur Intonation, daß verschiedene Aspekte

der Intonation behandelt hat. Diese Hausarbeit stellt in diesem Kontext das Kieler Intonationsmodell näher

vor. In den vorangegangenen Kapiteln wurde KIM eher auf einer sprachtheoretischen und funktionalen Ebene

dargestellt. In diesem Kapitel möchte ich nun einige Kritikpunkte zu diesem Intonationsmodell ausführen,

wobei dies aber mit Einschränkungen verbunden ist, da ich in den Bibliotheken der Bonner Umgebung fast

ausschließlich nur Aufsätze von Kohler selbst erhalten konnte. Kohler führt zwar selbst einige Kritikpunkte

aus, aber es ist naheliegend, daß eine kritische Sichtweise des Themas unter diesen Voraussetzungen nicht voll

ausgeschöpft werden kann, wie dies für eine Hausarbeit wünschenswert wäre.

Da das Feld der Intonationsforschung ein noch relativ junges Gebiet ist und erst in den letzten Jahren, unter ent-

sprechendem Einsatz von Rechnern, Intonationsmodelle auch perzeptiv getestet werden können, ist laut Kohler

noch einiges an Forschungsarbeit zu leisten. Insbesondere muß die Vorverarbeitung der Daten weitgehend au-

tomatisiert werden (vgl. Kohler 1991b), da ansonsten das Intonationsmodell nur auf voreingestellte Parameter

zurückgreifen und so eine nicht immer dem Kontext entsprechende passende TTS-Synthese generiert werden

kann. Bei unmarkierten Texten werden deshalb lediglich mittlere Gipfel realisiert. Ebenso müssen prosodische

Grenzen ausdrücklich im orthographischen Text markiert werden, wenn sie nicht mit Satzgrenzen zusammen-

fallen. Aus diesem Grund wurde am Institut für Phonetik und digitale Sprachverarbeitung in Kiel das Programm

’xassp’ entwickelt. Dies ist eine Anwendung zur Anzeige, Analyse und Verarbeitung von Sprachsignaldaten.

Es wird dort in erster Linie zum segmentellen oder prosodischen Etikettieren eingesetzt (siehe Kohler et al.

1998b).

Ein weiter Kritikpunkt findet sich im Ansatz zur Realisierung von Gipfelverläufen, da laut Kohler alle Kombina-

tionen von frühen, mittleren und späten Gipfeln möglich, aber die syntaktischen und semantischen Einschrän-

kungen noch nicht vollständig verstanden sind (vgl. Kohler 1991b). Ebenso wird von Kohler keine formel-

le perzeptive Überprüfung der Akzeptabilität der generierten Intonationskonturen und keine verallgemeinerte

Herleitung der Bedeutung von mehrakzentigen Phrasen angegeben. Kohler gibt zu diesem Punkt selbst zu, daß

„[native speakers] even have difficulties with the realisation of certain contours (e. g. early peaks).“(Kohler 1991d)

Nachdem die Frage der Akzeptabilität gestellt wurde, muß nach meiner Meinung auch die Natürlichkeit der

erzeugten Intonationskonturen untersucht werden. Kohler bemerkt zu diesem Aspekt:

Page 22: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

18 KAPITEL 5. RÉSUMÉ

„Eine über die bloße Verständlichkeit hinausgehende Synthese muß auch Aspekte der Natürlichkeitberücksichtigen und dafür die semantisch genutzte Variabilität der Intonation in der natürlichenSprache schrittweise approximieren. Auch hierzu ist noch eine Menge an Grundlagenforschungunter Rechnereinsatz erforderlich. Insbesondere ist die Meßbarkeit der ‚Natürlichkeit‘ selbst zumForschungsgegenstand zu machen.“ (Kohler 1987)

Alleine diese Kritikpunkte zeigen, daß noch einiges an Forschungsarbeit zu leisten ist, aber es scheint mir, daß

Kohler einen richtigen Ansatz zur Modellbildung und Implementation eines Systems zur symbolischen TTS-

Synthese von Spontansprache verfolgt. Mit dem Kieler Intonationsmodell hat Kohler meiner Ansicht nach ein

hervorragendes Werkzeug zur prosodischen Modellbildung und Modellimplementation geschaffen, mit dem

schon jetzt eine gute symbolische TTS-Synthese von Spontansprache möglich ist.

Page 23: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

Literaturverzeichnis

G. Bruce. Swedish word accents in sentence perspective. Gleerup, Lund, 1977.

R. Carlson und B. Granström. A phonetically oriented programming language for rule description of speech.Speech Communication, 2:245–253, 1975.

R. Carlson und B. Granström. Speech synthesis development and phonetic research – a personal introduction.Journal of Phonetics, 19:3–8, 1991.

R. Carlson, B. Granström und S. Hunnicutt. A multi-language text-to-speech module. Proceeding of the IEEEInternational Conference on Acoustics, Speech, and Signal Processing, 3:1604–1607, 1982.

R. Carlson, B. Granström und S. Hunnicutt. Multi-language text-to-speech development and applications. In:W. A. Ainsworth (Hg.), Advances in speech, hearing, and language processing, JAI Press, London, 1989.

E. Gårding. A generative model of intonation. In: A. Cutler und D. R. Ladd (Hg.), Prosody: Models andmeasurements, Springer, Berlin, 1983.

M. A. K. Halliday. Intonation and grammar in British Englisch. The Hague, Mouton, 1967.

D. H. Klatt. Synthesis by rule of segmental durations in English sentences. In: B. Lindblom und S. Öhman(Hg.), Frontiers of Speech Communication Research, Academic Press, London, New York, San Francisico,1979.

K. J. Kohler. Einführung in die Phonetik des Deutschen. Grundlagen der Germanistik. Erich Schmidt Verlag,Berlin, 1977.

K. J. Kohler. �� in speech timing. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitungder Universität Kiel (AIPUK), 20:55–97, 1983a.

K. J. Kohler. Prosodic boundary signals in German. Phonetica, 40:89–134, 1983b.

K. J. Kohler. Parameters of speech rate perception in German words and sentences: duration, �� movement and�� level. Language and Speech, 29:115–139, 1986.

K. J. Kohler. Funktionen von ��-Gipfeln im Deutschen. In: H. G. Tillmann und G. W. Willée (Hg.), Analyseund Synthese gesprochener Sprache, Georg Olms Verlag, Hildesheim, Zürich, New York, 1987.

K. J. Kohler. Zeitstrukturierung in der Sprachsynthese. In: A. Lacroix (Hg.), Digitale Sprachverarbeitung,vde-Verlag, Berlin, Offenbach, 1988.

K. J. Kohler. Macro and micro �� in the synthesis of intonation. In: J. Kingston und M. E. Beckman (Hg.),Papers in Laboratory Phonology I, Cambridge University Press, Cambridge, 1990a.

K. J. Kohler. Segmental reduction in connected speech in German: Phonological facts and phonetic expla-nations. In: W. J. Hardcastle und A. Marchal (Hg.), Speech Production and Speech Modelling, CambridgeUniversity Press, Dordrecht, Bosten, London, 1990b.

Page 24: Institut für Kommunikationsforschungund Phonetik ... · Institut für Kommunikationsforschungund Phonetik ... unterschieden werden in Wortakzent und Satzakzent. ... Kontext der Situation

20 LITERATURVERZEICHNIS

K. J. Kohler. Form and function of intonation peaks in German: A research project. Arbeitsberichte des Institutsfür Phonetik und digitale Sprachverarbeitung der Universität Kiel (AIPUK), 25:13–27, 1991a.

K. J. Kohler. A model of german intonation. Arbeitsberichte des Instituts für Phonetik und digitale Sprachver-arbeitung der Universität Kiel (AIPUK), 25:295–360, 1991b.

K. J. Kohler. The phonetics/phonology issue in the study of articulatory reduction. Phonetica, 48:180–192,1991c.

K. J. Kohler. Prosody in speech syntheses: The interplay between basic research and TTS application. Journalof Phonetics, 19:121–138, 1991d.

K. J. Kohler. Terminal intonation patterns in single-accent utterances of german: Phonetics, phonology andsemantics. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung der Universität Kiel(AIPUK), 25:115–185, 1991e.

K. J. Kohler. The kiel intonation model KIM, its implementation in TTS synthesis and its application tothe study of spontanous speech [on-line]. Available: ’http://www.ipds.uni-kiel.de/forschung/kim.en.html’,Datum: 23.10.1999, 16:00 Uhr, 1998.

K. J. Kohler et al. An acoustic analysis of hesitation particles in German [on-line]. Available:’http://www.ipds.uni-kiel.de/forschung/hesitation.en.html’, Datum: ����������, ��:�� Uhr, 1998a.

K. J. Kohler et al. xassp [on-line]. Available: ’http://www.ipds.uni-kiel.de/forschung/xassp.de.html’, Datum:����������, ��:�� Uhr, 1998b.

K. J. Kohler, G. Lex, M. Pätzold, M. Scheffers, A. Simpson und W. Thon. Handbuch zur Datenauf-nahme und Transliteration in ���� von VERBMOBIL – ��� [on-line]. Available: ’http://coral.lili.uni-bielefeld.de/Classes/Winter96/Morphlex/kohlerdoc/’, Datum: ����������, ��:�� Uhr, 1994.

K. J. Kohler, M. Pätzold und A. Simpson. From scenario to segment: The controlled elicitation, transcription,segmentation and labelling of spontaneous speech. Arbeitsberichte des Instituts für Phonetik und digitaleSprachverarbeitung der Universität Kiel (AIPUK) 25. Kiel, 1995.

B. Möbius. Ein quantitatives Modell der deutschen Intonation: Analyse und Synthese von Grundfrequenzver-läufen. Linguistische Arbeiten. Max Niemeyer Verlag, Tübingen, 1993.

J. ’t Hart und A. Cohen. Intonation by rule: A perceptual quest. Journal of Phonetics, 1:309–327, 1973.

J. ’t Hart und R. Collier. Integrating different levels of intonation analysis. Journal of Phonetics, 3:235–255,1975.