Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Expressive Sprachsynthese
Sascha Griffiths
Universität BielefeldFakultät für Linguistik und Literaturwissenschaft
AG Wissensbasierte Systeme
Minden, June 30, 2006
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Überblick
1 Einleitung
2 Linguistische Aspekte expressiver SpracheSprachliche VariationStudien zu emotionaler Sprechweise undPersönlichkeitsmerkmalen
3 Verfahren zur Sprachsynthese
4 MARY TTS
5 Unit Selection mit BOSS
6 Ziele
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Einleitung
Ein wichtiger Aspekt moderner Mensch- Maschine-Interaktionist der Einsatz gesprochener Sprache zur Eingabe(Spracherkennung) und Ausgabe (Sprachsynthese)
Das folgende befasst sich mit “besonderen” Aspekten derSprachsynthese
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Sprachliche Variation
Kompetenz
Beschreibbar durch eineGrammatik
Menge aller wohlgeformtenÄusserungen einer Sprache
Durch Regeln konstruierteSchall-Bedeutung-Beziehung
Perfekter Sprecher-Zuhörer
Performanz
Tatsächliche Sprache
Faktoren die Sprachebeeinflussen:
RestriktionUnaufmerksamkeitAblenkungErinnerungGlaube/ÜberzeugungPhysische Faktoren
SituationbedingtPersonenbezogen
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Sprachliche Variation
Pragmatik
Semitotisch: Beziehung vom Zeichen zum Nutzer
Sprachgebrauch: Stil, Soziolinguistik, Variätenforschung, ...
Gerald Gazdar: ”meaning minus truth conditions”
Paralinguistik
“Begleiterscheinungen der Sprache”
Non-Verbale Kommunikation (Syntax, Semantik undPragmatik,...)
Kommunikative Nutzung von Kanälen ausserhalb des“linguistischen Systems”
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Sprachliche Variation
Extra-Linguistik/Exolinguistik
Beeinflußung des Sprachsignals oder der non-verbalenKommunikation, die keine Relevanz für das linguistischeObjekt (Text, Diskurs, Kommunikation,...) haben
“Events” (z.B. Hintergrundgeräusche), physiologischeFaktoren (z.B. Störung der Prosodie, da der Sprecher ausserAtem ist), andere Störungen (z.B. Veränderung von Stimmeund Lautqualität durch eine Erkältung),...
Beispiel: Ein Räuspern als Diskursmarker/ Interjektion vs.Räuspern wegen Blockierung des Halses
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Sprachliche Variation
Expressive gesprochene Sprache
Ist danach...
Teil der gesprochenen SpracheInsbesondere auf “extra-verbale” Komponenten desSprachsignals zu beziehenAbgetrennt von kommunikativ unwichtigen Ereignissen zusehenDie Aspekte gesprochener Sprache die
Etwas über die Intentionen eines Sprechers in einer SituationaussagtEtwas über den Sprecher aussagt
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Studie zu emotionaler Sprechweise
Abelin and Allwood (2003)
Studie der Wirkung von emotionaler Sprechweise
Der Fokus lag auf interkulturellem Vergleich derSprachwirkung
Ergebnisse:
Einige Emotionen werden weniger häufig “falsch” erkannt alsandereSematisch ähnliche Emotionen werden häufiger “verwechselt”Die akustisch-instrumentale Analyse der Sprachproben ergab,dass semantisch ähnliche Emotionen, auch akustischeEigenschaften teilen
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Intonationsverläufe in emotionaler Sprache
Paeschke and Sendlmeier (2000)
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Persönlichkeit in gesprochener Sprache
Trouvain et al. (2006) tragen einige Merkmale aus der Literaturzusammen:
Höhere Stimmen werden weniger wohlwollend empfunden,während variable Intonation als wohlwollend gilt
Langsame Stimmen werden als “kalt” gedeutet, währendschnelle Sprechweise Selbstvertraun und Objektivitätvermittelt
Laute Stimmen werden als freundlich empfunden
Betrug wird mit einem Anstieg des mean pitch assoziert
Tiefe Stimmen werden als kompetenter empfunden
Stimmen sollten nicht monoton sein um attraktiv zu wirken,daher wird ein weite pitch range als positiver empfunden
Pausen “sollten” weder zu häufig noch zu selten sein
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Persönlichkeit in gesprochener Sprache
Fazit der Studie mit Sprachsynthese Experimenten nach Trouvainet al. (2006):Ausdruck von Persönlichkeitsmerkmalen ist möglich, jedoch ist einDiphone Synthesizer am besten hierfür geeignet, da man dieprosodischen Parameter besser beeinflussen kann.
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Ausdruck und Geschlecht
Erikson and Traunmueller (1995): Vergleich von Daten ausExperimenten mit vorgelesenen Texten verschiedener “Arten” inmehreren Sprachen hinsichtlich der pitch range.Ergebnis:
In Texten die keine Emotionen hervorrufen gibt es keineUnterschiede
Was die Europäischen Sprachen angehtWas Frauen und Männer angeht
Was Texte mit emotionaler Sprechweise angeht sind dieUnterschiede zwischen Männern und Frauen deutlichersichtbar
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Männer, Frauen, Kinder
Black (2003) führte Tests mit Unit Selection Stimmen zuSprachwirkung und Expressivität durch. Ergebnis:
“There is a reason why speech synthesis voices sound bored”
Männer-, Frauen- und Kinderstimmen werden als natürlicherempfunden, wenn die aufgenommene Sprache für sie typischeSätze beinhaltet
Eine Genki-Stimme wird als angenehmer empfunden, als NewsStyle
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Männer und Frauenstimmen
Nass et al. (2000) führten eine Reihe von Experimenten zumThema Wirkung von synthetischer Sprache durch:
Menschen interagieren mit computergenerierten Stimmen, wiemit anderen Menschen
Männliche Stimmen wirken überzeugender als weibliche
Männer bevorzugen die männlichen Stimmen, Frauen dieweiblichen
Männlichen Stimmen wird mehr technische Kompetenz undweiblichen mehr zwischenmenschliche Kompetenz zugeordnet
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Sprachsynthese Verfahren
Sprachsynthese Verfahren sind
Formanten Synthese - künstliches Schallsignal, durchLautmodellierung
Artikulatorische Synthese - künstliches Schallsignal, durchSimulation des menschlichen Vokaltrakts
Konkatenative Synthese - mit Sprachaufnahmen, die zuneuen Strings zusammengefügt werden
Konkatenative Speechsyntheseverfahren
Domänenspezifische Synthese
Diphone-basierte Synthese.
Unit Selection Synthese
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Struktur von TTS
Struktur von TTS
NLP DSP
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
MARY TTS
TTS System das als MBROLA Frontend genutzt wird
Server und Client Modell
Besonderes Feature EmoSpeak
Der Fokus bei der Arbeit an MARY liegt auf emotionalerSprechweise
Bisher ist TTS für Deutsch, Englisch und Tibetanischimplementiert zum Download bereit gestellt
Support durch eine Mailingliste
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
EmoSpeak
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
MARY Beispiele1 - Standards
Tibetanisch
Englisch
Mann
Frau
Sascha Griffiths Expressive Sprachsynthese
1584.0
Tibet.mp3Media File (audio/x-mp3)
2520.0
English.mp3Media File (audio/x-mp3)
4248.0
Male.mp3Media File (audio/x-mp3)
2160.0
Female.mp3Media File (audio/x-mp3)
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
MARY Beispiele2
Anger
Joy
Sad
Fear
http://emosamples.syntheticspeech.de/index.html
Sascha Griffiths Expressive Sprachsynthese
mary_de7_lassMichDoch.mp3Media File (audio/x-mp3)
mary_de7_gewonnen.mp3Media File (audio/x-mp3)
mary_de7_zuSpaet.mp3Media File (audio/x-mp3)
mary_de7_einMonster.mp3Media File (audio/x-mp3)
http://emosamples.syntheticspeech.de/index.html
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
MARY Beispiele 3
Active
Passive
Positive
Negative
Sascha Griffiths Expressive Sprachsynthese
active.wavMedia File (audio/wav)
passive.wavMedia File (audio/wav)
positive.wavMedia File (audio/wav)
negative.wavMedia File (audio/wav)
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Eine Alternative zu MARY - EmoFilt
EmoFilt kann ebenfalls mit MARY und Txt2Pho kombiniertwerden.
Neutral
Anger
Joy
Sad
Fear
http://emosamples.syntheticspeech.de/index.htmlSascha Griffiths Expressive Sprachsynthese
4345.033
emofiltMaleGerman_neutral.mp3Media File (audio/x-mp3)
2768.9785
emofiltMaleGerman_anger.mp3Media File (audio/x-mp3)
3681.1414
emofiltMaleGerman_joy.mp3Media File (audio/x-mp3)
5929.0674
emofiltMaleGerman_sad.mp3Media File (audio/x-mp3)
3403.917
emofiltMaleGerman_fear.mp3Media File (audio/x-mp3)
http://emosamples.syntheticspeech.de/index.html
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
MARY TTS Fazit
Pro
MARY TTS ist nicht nurauf Deutsch beschränkt
MARY TTS erlaubt diedirekte Anpassung vonProsodie an Emotionen
MARY besitzt multipleEingabe und AusgabeFormate (u.a. Sable)
OpenSource
Contra
Diphone basiert – jedochwerden Unit SelectionVoices folgen
Ausgabe Format (*.wav,*.aiff, *.au, *.mp3)funktionieren derzeit nichteinwandfrei
Derzeit hoher Bedarf anSystem Resourcen
Implementiert in Java
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
BOSS
Boss ist ein Unit Selection System, dass in Bonn entwickelt wurde(“Nachfolger” von Txt2Pho). Unit Selection hängt immer voneinem (annotierten) Korpus ab.
Der BOSS “Standard Korpus” basiert auf dem VerbmobilCorpus (enthält über 4000 Sätz, was ca. 240 Minuten Spracheentspricht)
Sätze, Wörter, Morpheme, Silben, Phoneme, Halbphoneme
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
BOSS
Zwei Probleme ergeben sich für Unit Selection
Korpus Annotation dauert zu lange und ist viel Arbeit (esmüsste für expressive Sprache ein eigener Korpus erstelltwerden)
Es ist fraglich, ob das Timing für Gesten für Agent weitermöglich ist, wie dies bei Diphonesynthese der Fall ist
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
BOSS - lohnt sich der Aufwand?
BOSS1
BOSS3
BOSS3
Sascha Griffiths Expressive Sprachsynthese
opr00G4I
8712.0
boss_s1.mp3Media File (audio/x-mp3)
Bonn Open Synthesis System
IKP-Forschung: Phonetik
Other
13320.0
deu - http://www.ikp.uni-bonn.de/boss
boss_s2.mp3Media File (audio/x-mp3)
Bonn Open Synthesis System
IKP-Forschung: Phonetik
4608.0
XXX - http://www.ikp.uni-bonn.de/boss
boss_s3.mp3Media File (audio/x-mp3)
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Ziele der Magisterarbeit
1 Theoretische Bearbeitung verschiedener Phänomene inprosodischer Sprache, die im Zusammenhang stehen mit
EmotionenPersönlichkeitsmerkmalen
2 Einbindung von MARY in das MAX System aufbauend aufStößel (2001)
Sascha Griffiths Expressive Sprachsynthese
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Just for Fun
Cepstral’s Damian
Pavarobotti
Nick Campell’s Synthesis
Sascha Griffiths Expressive Sprachsynthese
8712.0
cepstral_damian.mp3Media File (audio/x-mp3)
Other
10008.0
pavarobotti.mp3Media File (audio/x-mp3)
58248.0
natr_telefone.mp3Media File (audio/x-mp3)
EinleitungLinguistische Aspekte expressiver Sprache
Verfahren zur SprachsyntheseMARY TTS
Unit Selection mit BOSSZiele
References
Åsa Abelin and Jens Allwood. Cross linguistic interpretation ofexpressions of emotions. In Proceedings of VIII SimposioInternactional de Communicacion Social., 20-24 jan. Santiago deCuba, Kuba 2003, pages 387–393, 2003.
A. Black. Unit selection and emotional speech, 2003. URLciteseer.ist.psu.edu/black03unit.html.
Anders Erikson and Hartmut Traunmueller. The frequency rangeof the voice fundamental in male and female adults. manuscript,1995.
Clifford Nass, Scott Brave, and Eun-Ju Lee. Cancomputer-generated speech have gender? - an experimental testof gender stereotypes. In Conference on Human Factors inComputing Systems, 2000.
Astrid Paeschke and Walter F. Sendlmeier. Einschwingphase vonvokalen bei emotionaler sprechweise. In Wolfgang Hess undKarlheinz Stöber (Hrsg.): ElektronischeSprachsignalverarbeitung (ESSV-Tagungsband).w.e.b.-Universitätsverlag, 2000.
Dirk Stößel. Ein system zur sprachsynthese für multimodalevirtuelle agenten. Master’s thesis, University of Bielefeld, 2001.
Jürgen Trouvain, Sarah Schmidt, Marc Schröder, Michael Schmitz,and William J. Barry. Modelling personality features by changingprosody in synthetic speech. In Proc. Speech Prosody 2006,Dresden, Germany, 2006.
Sascha Griffiths Expressive Sprachsynthese
citeseer.ist.psu.edu/black03unit.html
EinleitungLinguistische Aspekte expressiver SpracheSprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen
Verfahren zur SprachsyntheseMARY TTSUnit Selection mit BOSSZieleReferences