Expressive Sprachsynthese · Faktoren (z.B. Störung der Prosodie, da der Sprecher ausser Atem ist), andere Störungen (z.B. Veränderung von Stimme und Lautqualität durch eine

EinleitungLinguistische Aspekte expressiver Sprache

Verfahren zur SprachsyntheseMARY TTS

Unit Selection mit BOSSZiele

References

Expressive Sprachsynthese

Sascha Griffiths

Universität BielefeldFakultät für Linguistik und Literaturwissenschaft

AG Wissensbasierte Systeme

Minden, June 30, 2006

Sascha Griffiths Expressive Sprachsynthese




References

Überblick

1 Einleitung

2 Linguistische Aspekte expressiver SpracheSprachliche VariationStudien zu emotionaler Sprechweise undPersönlichkeitsmerkmalen

3 Verfahren zur Sprachsynthese

4 MARY TTS

5 Unit Selection mit BOSS

6 Ziele





References

Einleitung

Ein wichtiger Aspekt moderner Mensch- Maschine-Interaktionist der Einsatz gesprochener Sprache zur Eingabe(Spracherkennung) und Ausgabe (Sprachsynthese)

Das folgende befasst sich mit “besonderen” Aspekten derSprachsynthese





References

Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

Sprachliche Variation

Kompetenz

Beschreibbar durch eineGrammatik

Menge aller wohlgeformtenÄusserungen einer Sprache

Durch Regeln konstruierteSchall-Bedeutung-Beziehung

Perfekter Sprecher-Zuhörer

Performanz

Tatsächliche Sprache

Faktoren die Sprachebeeinflussen:

RestriktionUnaufmerksamkeitAblenkungErinnerungGlaube/ÜberzeugungPhysische Faktoren

SituationbedingtPersonenbezogen





References



Pragmatik

Semitotisch: Beziehung vom Zeichen zum Nutzer

Sprachgebrauch: Stil, Soziolinguistik, Variätenforschung, ...

Gerald Gazdar: ”meaning minus truth conditions”

Paralinguistik

“Begleiterscheinungen der Sprache”

Non-Verbale Kommunikation (Syntax, Semantik undPragmatik,...)

Kommunikative Nutzung von Kanälen ausserhalb des“linguistischen Systems”





References



Extra-Linguistik/Exolinguistik

Beeinflußung des Sprachsignals oder der non-verbalenKommunikation, die keine Relevanz für das linguistischeObjekt (Text, Diskurs, Kommunikation,...) haben

“Events” (z.B. Hintergrundgeräusche), physiologischeFaktoren (z.B. Störung der Prosodie, da der Sprecher ausserAtem ist), andere Störungen (z.B. Veränderung von Stimmeund Lautqualität durch eine Erkältung),...

Beispiel: Ein Räuspern als Diskursmarker/ Interjektion vs.Räuspern wegen Blockierung des Halses





References



Expressive gesprochene Sprache

Ist danach...

Teil der gesprochenen SpracheInsbesondere auf “extra-verbale” Komponenten desSprachsignals zu beziehenAbgetrennt von kommunikativ unwichtigen Ereignissen zusehenDie Aspekte gesprochener Sprache die

Etwas über die Intentionen eines Sprechers in einer SituationaussagtEtwas über den Sprecher aussagt





References


Studie zu emotionaler Sprechweise

Abelin and Allwood (2003)

Studie der Wirkung von emotionaler Sprechweise

Der Fokus lag auf interkulturellem Vergleich derSprachwirkung

Ergebnisse:

Einige Emotionen werden weniger häufig “falsch” erkannt alsandereSematisch ähnliche Emotionen werden häufiger “verwechselt”Die akustisch-instrumentale Analyse der Sprachproben ergab,dass semantisch ähnliche Emotionen, auch akustischeEigenschaften teilen





References


Intonationsverläufe in emotionaler Sprache

Paeschke and Sendlmeier (2000)





References


Persönlichkeit in gesprochener Sprache

Trouvain et al. (2006) tragen einige Merkmale aus der Literaturzusammen:

Höhere Stimmen werden weniger wohlwollend empfunden,während variable Intonation als wohlwollend gilt

Langsame Stimmen werden als “kalt” gedeutet, währendschnelle Sprechweise Selbstvertraun und Objektivitätvermittelt

Laute Stimmen werden als freundlich empfunden

Betrug wird mit einem Anstieg des mean pitch assoziert

Tiefe Stimmen werden als kompetenter empfunden

Stimmen sollten nicht monoton sein um attraktiv zu wirken,daher wird ein weite pitch range als positiver empfunden

Pausen “sollten” weder zu häufig noch zu selten sein





References


Persönlichkeit in gesprochener Sprache

Fazit der Studie mit Sprachsynthese Experimenten nach Trouvainet al. (2006):Ausdruck von Persönlichkeitsmerkmalen ist möglich, jedoch ist einDiphone Synthesizer am besten hierfür geeignet, da man dieprosodischen Parameter besser beeinflussen kann.





References


Ausdruck und Geschlecht

Erikson and Traunmueller (1995): Vergleich von Daten ausExperimenten mit vorgelesenen Texten verschiedener “Arten” inmehreren Sprachen hinsichtlich der pitch range.Ergebnis:

In Texten die keine Emotionen hervorrufen gibt es keineUnterschiede

Was die Europäischen Sprachen angehtWas Frauen und Männer angeht

Was Texte mit emotionaler Sprechweise angeht sind dieUnterschiede zwischen Männern und Frauen deutlichersichtbar





References


Männer, Frauen, Kinder

Black (2003) führte Tests mit Unit Selection Stimmen zuSprachwirkung und Expressivität durch. Ergebnis:

“There is a reason why speech synthesis voices sound bored”

Männer-, Frauen- und Kinderstimmen werden als natürlicherempfunden, wenn die aufgenommene Sprache für sie typischeSätze beinhaltet

Eine Genki-Stimme wird als angenehmer empfunden, als NewsStyle





References


Männer und Frauenstimmen

Nass et al. (2000) führten eine Reihe von Experimenten zumThema Wirkung von synthetischer Sprache durch:

Menschen interagieren mit computergenerierten Stimmen, wiemit anderen Menschen

Männliche Stimmen wirken überzeugender als weibliche

Männer bevorzugen die männlichen Stimmen, Frauen dieweiblichen

Männlichen Stimmen wird mehr technische Kompetenz undweiblichen mehr zwischenmenschliche Kompetenz zugeordnet





References

Sprachsynthese Verfahren

Sprachsynthese Verfahren sind

Formanten Synthese - künstliches Schallsignal, durchLautmodellierung

Artikulatorische Synthese - künstliches Schallsignal, durchSimulation des menschlichen Vokaltrakts

Konkatenative Synthese - mit Sprachaufnahmen, die zuneuen Strings zusammengefügt werden

Konkatenative Speechsyntheseverfahren

Domänenspezifische Synthese

Diphone-basierte Synthese.

Unit Selection Synthese





References

Struktur von TTS

Struktur von TTS

NLP DSP





References

MARY TTS

TTS System das als MBROLA Frontend genutzt wird

Server und Client Modell

Besonderes Feature EmoSpeak

Der Fokus bei der Arbeit an MARY liegt auf emotionalerSprechweise

Bisher ist TTS für Deutsch, Englisch und Tibetanischimplementiert zum Download bereit gestellt

Support durch eine Mailingliste





References

EmoSpeak





References

MARY Beispiele1 - Standards

Tibetanisch

Englisch

Mann

Frau


1584.0

Tibet.mp3Media File (audio/x-mp3)

2520.0

English.mp3Media File (audio/x-mp3)

4248.0

Male.mp3Media File (audio/x-mp3)

2160.0

Female.mp3Media File (audio/x-mp3)




References

MARY Beispiele2

Anger

Joy

Sad

Fear

http://emosamples.syntheticspeech.de/index.html


mary_de7_lassMichDoch.mp3Media File (audio/x-mp3)

mary_de7_gewonnen.mp3Media File (audio/x-mp3)

mary_de7_zuSpaet.mp3Media File (audio/x-mp3)

mary_de7_einMonster.mp3Media File (audio/x-mp3)





References

MARY Beispiele 3

Active

Passive

Positive

Negative


active.wavMedia File (audio/wav)

passive.wavMedia File (audio/wav)

positive.wavMedia File (audio/wav)

negative.wavMedia File (audio/wav)




References

Eine Alternative zu MARY - EmoFilt

EmoFilt kann ebenfalls mit MARY und Txt2Pho kombiniertwerden.

Neutral

Anger

Joy

Sad

Fear

http://emosamples.syntheticspeech.de/index.htmlSascha Griffiths Expressive Sprachsynthese

4345.033

emofiltMaleGerman_neutral.mp3Media File (audio/x-mp3)

2768.9785

emofiltMaleGerman_anger.mp3Media File (audio/x-mp3)

3681.1414

emofiltMaleGerman_joy.mp3Media File (audio/x-mp3)

5929.0674

emofiltMaleGerman_sad.mp3Media File (audio/x-mp3)

3403.917

emofiltMaleGerman_fear.mp3Media File (audio/x-mp3)





References

MARY TTS Fazit

Pro

MARY TTS ist nicht nurauf Deutsch beschränkt

MARY TTS erlaubt diedirekte Anpassung vonProsodie an Emotionen

MARY besitzt multipleEingabe und AusgabeFormate (u.a. Sable)

OpenSource

Contra

Diphone basiert – jedochwerden Unit SelectionVoices folgen

Ausgabe Format (*.wav,*.aiff, *.au, *.mp3)funktionieren derzeit nichteinwandfrei

Derzeit hoher Bedarf anSystem Resourcen

Implementiert in Java





References

BOSS

Boss ist ein Unit Selection System, dass in Bonn entwickelt wurde(“Nachfolger” von Txt2Pho). Unit Selection hängt immer voneinem (annotierten) Korpus ab.

Der BOSS “Standard Korpus” basiert auf dem VerbmobilCorpus (enthält über 4000 Sätz, was ca. 240 Minuten Spracheentspricht)

Sätze, Wörter, Morpheme, Silben, Phoneme, Halbphoneme





References

BOSS

Zwei Probleme ergeben sich für Unit Selection

Korpus Annotation dauert zu lange und ist viel Arbeit (esmüsste für expressive Sprache ein eigener Korpus erstelltwerden)

Es ist fraglich, ob das Timing für Gesten für Agent weitermöglich ist, wie dies bei Diphonesynthese der Fall ist





References

BOSS - lohnt sich der Aufwand?

BOSS1

BOSS3

BOSS3


opr00G4I

8712.0

boss_s1.mp3Media File (audio/x-mp3)

Bonn Open Synthesis System

IKP-Forschung: Phonetik

Other

13320.0

deu - http://www.ikp.uni-bonn.de/boss


Bonn Open Synthesis System

IKP-Forschung: Phonetik

4608.0

XXX - http://www.ikp.uni-bonn.de/boss





References

Ziele der Magisterarbeit

1 Theoretische Bearbeitung verschiedener Phänomene inprosodischer Sprache, die im Zusammenhang stehen mit

EmotionenPersönlichkeitsmerkmalen

2 Einbindung von MARY in das MAX System aufbauend aufStößel (2001)





References

Just for Fun

Cepstral’s Damian

Pavarobotti

Nick Campell’s Synthesis


8712.0

cepstral_damian.mp3Media File (audio/x-mp3)

Other

10008.0

pavarobotti.mp3Media File (audio/x-mp3)

58248.0

natr_telefone.mp3Media File (audio/x-mp3)




References

Åsa Abelin and Jens Allwood. Cross linguistic interpretation ofexpressions of emotions. In Proceedings of VIII SimposioInternactional de Communicacion Social., 20-24 jan. Santiago deCuba, Kuba 2003, pages 387–393, 2003.

A. Black. Unit selection and emotional speech, 2003. URLciteseer.ist.psu.edu/black03unit.html.

Anders Erikson and Hartmut Traunmueller. The frequency rangeof the voice fundamental in male and female adults. manuscript,1995.

Clifford Nass, Scott Brave, and Eun-Ju Lee. Cancomputer-generated speech have gender? - an experimental testof gender stereotypes. In Conference on Human Factors inComputing Systems, 2000.

Astrid Paeschke and Walter F. Sendlmeier. Einschwingphase vonvokalen bei emotionaler sprechweise. In Wolfgang Hess undKarlheinz Stöber (Hrsg.): ElektronischeSprachsignalverarbeitung (ESSV-Tagungsband).w.e.b.-Universitätsverlag, 2000.

Dirk Stößel. Ein system zur sprachsynthese für multimodalevirtuelle agenten. Master’s thesis, University of Bielefeld, 2001.

Jürgen Trouvain, Sarah Schmidt, Marc Schröder, Michael Schmitz,and William J. Barry. Modelling personality features by changingprosody in synthetic speech. In Proc. Speech Prosody 2006,Dresden, Germany, 2006.


citeseer.ist.psu.edu/black03unit.html

EinleitungLinguistische Aspekte expressiver SpracheSprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

Verfahren zur SprachsyntheseMARY TTSUnit Selection mit BOSSZieleReferences

Documents

Expressive Sprachsynthese · Faktoren (z.B. Störung der Prosodie, da der Sprecher ausser Atem ist), andere Störungen (z.B. Veränderung von Stimme und Lautqualität durch eine