29
Einleitung Linguistische Aspekte expressiver Sprache Verfahren zur Sprachsynthese MARY TTS Unit Selection mit BOSS Ziele References Expressive Sprachsynthese Sascha Griffiths Universit¨ at Bielefeld Fakult¨ at f¨ ur Linguistik und Literaturwissenschaft AG Wissensbasierte Systeme Minden, June 30, 2006 Sascha Griffiths Expressive Sprachsynthese

Expressive Sprachsynthese · Faktoren (z.B. St¨orung der Prosodie, da der Sprecher ausser Atem ist), andere St¨orungen (z.B. Ver¨anderung von Stimme und Lautqualit¨at durch eine

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Expressive Sprachsynthese

    Sascha Griffiths

    Universität BielefeldFakultät für Linguistik und Literaturwissenschaft

    AG Wissensbasierte Systeme

    Minden, June 30, 2006

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Überblick

    1 Einleitung

    2 Linguistische Aspekte expressiver SpracheSprachliche VariationStudien zu emotionaler Sprechweise undPersönlichkeitsmerkmalen

    3 Verfahren zur Sprachsynthese

    4 MARY TTS

    5 Unit Selection mit BOSS

    6 Ziele

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Einleitung

    Ein wichtiger Aspekt moderner Mensch- Maschine-Interaktionist der Einsatz gesprochener Sprache zur Eingabe(Spracherkennung) und Ausgabe (Sprachsynthese)

    Das folgende befasst sich mit “besonderen” Aspekten derSprachsynthese

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Sprachliche Variation

    Kompetenz

    Beschreibbar durch eineGrammatik

    Menge aller wohlgeformtenÄusserungen einer Sprache

    Durch Regeln konstruierteSchall-Bedeutung-Beziehung

    Perfekter Sprecher-Zuhörer

    Performanz

    Tatsächliche Sprache

    Faktoren die Sprachebeeinflussen:

    RestriktionUnaufmerksamkeitAblenkungErinnerungGlaube/ÜberzeugungPhysische Faktoren

    SituationbedingtPersonenbezogen

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Sprachliche Variation

    Pragmatik

    Semitotisch: Beziehung vom Zeichen zum Nutzer

    Sprachgebrauch: Stil, Soziolinguistik, Variätenforschung, ...

    Gerald Gazdar: ”meaning minus truth conditions”

    Paralinguistik

    “Begleiterscheinungen der Sprache”

    Non-Verbale Kommunikation (Syntax, Semantik undPragmatik,...)

    Kommunikative Nutzung von Kanälen ausserhalb des“linguistischen Systems”

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Sprachliche Variation

    Extra-Linguistik/Exolinguistik

    Beeinflußung des Sprachsignals oder der non-verbalenKommunikation, die keine Relevanz für das linguistischeObjekt (Text, Diskurs, Kommunikation,...) haben

    “Events” (z.B. Hintergrundgeräusche), physiologischeFaktoren (z.B. Störung der Prosodie, da der Sprecher ausserAtem ist), andere Störungen (z.B. Veränderung von Stimmeund Lautqualität durch eine Erkältung),...

    Beispiel: Ein Räuspern als Diskursmarker/ Interjektion vs.Räuspern wegen Blockierung des Halses

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Sprachliche Variation

    Expressive gesprochene Sprache

    Ist danach...

    Teil der gesprochenen SpracheInsbesondere auf “extra-verbale” Komponenten desSprachsignals zu beziehenAbgetrennt von kommunikativ unwichtigen Ereignissen zusehenDie Aspekte gesprochener Sprache die

    Etwas über die Intentionen eines Sprechers in einer SituationaussagtEtwas über den Sprecher aussagt

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Studie zu emotionaler Sprechweise

    Abelin and Allwood (2003)

    Studie der Wirkung von emotionaler Sprechweise

    Der Fokus lag auf interkulturellem Vergleich derSprachwirkung

    Ergebnisse:

    Einige Emotionen werden weniger häufig “falsch” erkannt alsandereSematisch ähnliche Emotionen werden häufiger “verwechselt”Die akustisch-instrumentale Analyse der Sprachproben ergab,dass semantisch ähnliche Emotionen, auch akustischeEigenschaften teilen

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Intonationsverläufe in emotionaler Sprache

    Paeschke and Sendlmeier (2000)

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Persönlichkeit in gesprochener Sprache

    Trouvain et al. (2006) tragen einige Merkmale aus der Literaturzusammen:

    Höhere Stimmen werden weniger wohlwollend empfunden,während variable Intonation als wohlwollend gilt

    Langsame Stimmen werden als “kalt” gedeutet, währendschnelle Sprechweise Selbstvertraun und Objektivitätvermittelt

    Laute Stimmen werden als freundlich empfunden

    Betrug wird mit einem Anstieg des mean pitch assoziert

    Tiefe Stimmen werden als kompetenter empfunden

    Stimmen sollten nicht monoton sein um attraktiv zu wirken,daher wird ein weite pitch range als positiver empfunden

    Pausen “sollten” weder zu häufig noch zu selten sein

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Persönlichkeit in gesprochener Sprache

    Fazit der Studie mit Sprachsynthese Experimenten nach Trouvainet al. (2006):Ausdruck von Persönlichkeitsmerkmalen ist möglich, jedoch ist einDiphone Synthesizer am besten hierfür geeignet, da man dieprosodischen Parameter besser beeinflussen kann.

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Ausdruck und Geschlecht

    Erikson and Traunmueller (1995): Vergleich von Daten ausExperimenten mit vorgelesenen Texten verschiedener “Arten” inmehreren Sprachen hinsichtlich der pitch range.Ergebnis:

    In Texten die keine Emotionen hervorrufen gibt es keineUnterschiede

    Was die Europäischen Sprachen angehtWas Frauen und Männer angeht

    Was Texte mit emotionaler Sprechweise angeht sind dieUnterschiede zwischen Männern und Frauen deutlichersichtbar

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Männer, Frauen, Kinder

    Black (2003) führte Tests mit Unit Selection Stimmen zuSprachwirkung und Expressivität durch. Ergebnis:

    “There is a reason why speech synthesis voices sound bored”

    Männer-, Frauen- und Kinderstimmen werden als natürlicherempfunden, wenn die aufgenommene Sprache für sie typischeSätze beinhaltet

    Eine Genki-Stimme wird als angenehmer empfunden, als NewsStyle

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Männer und Frauenstimmen

    Nass et al. (2000) führten eine Reihe von Experimenten zumThema Wirkung von synthetischer Sprache durch:

    Menschen interagieren mit computergenerierten Stimmen, wiemit anderen Menschen

    Männliche Stimmen wirken überzeugender als weibliche

    Männer bevorzugen die männlichen Stimmen, Frauen dieweiblichen

    Männlichen Stimmen wird mehr technische Kompetenz undweiblichen mehr zwischenmenschliche Kompetenz zugeordnet

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Sprachsynthese Verfahren

    Sprachsynthese Verfahren sind

    Formanten Synthese - künstliches Schallsignal, durchLautmodellierung

    Artikulatorische Synthese - künstliches Schallsignal, durchSimulation des menschlichen Vokaltrakts

    Konkatenative Synthese - mit Sprachaufnahmen, die zuneuen Strings zusammengefügt werden

    Konkatenative Speechsyntheseverfahren

    Domänenspezifische Synthese

    Diphone-basierte Synthese.

    Unit Selection Synthese

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Struktur von TTS

    Struktur von TTS

    NLP DSP

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    MARY TTS

    TTS System das als MBROLA Frontend genutzt wird

    Server und Client Modell

    Besonderes Feature EmoSpeak

    Der Fokus bei der Arbeit an MARY liegt auf emotionalerSprechweise

    Bisher ist TTS für Deutsch, Englisch und Tibetanischimplementiert zum Download bereit gestellt

    Support durch eine Mailingliste

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    EmoSpeak

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    MARY Beispiele1 - Standards

    Tibetanisch

    Englisch

    Mann

    Frau

    Sascha Griffiths Expressive Sprachsynthese

    1584.0

    Tibet.mp3Media File (audio/x-mp3)

    2520.0

    English.mp3Media File (audio/x-mp3)

    4248.0

    Male.mp3Media File (audio/x-mp3)

    2160.0

    Female.mp3Media File (audio/x-mp3)

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    MARY Beispiele2

    Anger

    Joy

    Sad

    Fear

    http://emosamples.syntheticspeech.de/index.html

    Sascha Griffiths Expressive Sprachsynthese

    mary_de7_lassMichDoch.mp3Media File (audio/x-mp3)

    mary_de7_gewonnen.mp3Media File (audio/x-mp3)

    mary_de7_zuSpaet.mp3Media File (audio/x-mp3)

    mary_de7_einMonster.mp3Media File (audio/x-mp3)

    http://emosamples.syntheticspeech.de/index.html

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    MARY Beispiele 3

    Active

    Passive

    Positive

    Negative

    Sascha Griffiths Expressive Sprachsynthese

    active.wavMedia File (audio/wav)

    passive.wavMedia File (audio/wav)

    positive.wavMedia File (audio/wav)

    negative.wavMedia File (audio/wav)

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Eine Alternative zu MARY - EmoFilt

    EmoFilt kann ebenfalls mit MARY und Txt2Pho kombiniertwerden.

    Neutral

    Anger

    Joy

    Sad

    Fear

    http://emosamples.syntheticspeech.de/index.htmlSascha Griffiths Expressive Sprachsynthese

    4345.033

    emofiltMaleGerman_neutral.mp3Media File (audio/x-mp3)

    2768.9785

    emofiltMaleGerman_anger.mp3Media File (audio/x-mp3)

    3681.1414

    emofiltMaleGerman_joy.mp3Media File (audio/x-mp3)

    5929.0674

    emofiltMaleGerman_sad.mp3Media File (audio/x-mp3)

    3403.917

    emofiltMaleGerman_fear.mp3Media File (audio/x-mp3)

    http://emosamples.syntheticspeech.de/index.html

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    MARY TTS Fazit

    Pro

    MARY TTS ist nicht nurauf Deutsch beschränkt

    MARY TTS erlaubt diedirekte Anpassung vonProsodie an Emotionen

    MARY besitzt multipleEingabe und AusgabeFormate (u.a. Sable)

    OpenSource

    Contra

    Diphone basiert – jedochwerden Unit SelectionVoices folgen

    Ausgabe Format (*.wav,*.aiff, *.au, *.mp3)funktionieren derzeit nichteinwandfrei

    Derzeit hoher Bedarf anSystem Resourcen

    Implementiert in Java

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    BOSS

    Boss ist ein Unit Selection System, dass in Bonn entwickelt wurde(“Nachfolger” von Txt2Pho). Unit Selection hängt immer voneinem (annotierten) Korpus ab.

    Der BOSS “Standard Korpus” basiert auf dem VerbmobilCorpus (enthält über 4000 Sätz, was ca. 240 Minuten Spracheentspricht)

    Sätze, Wörter, Morpheme, Silben, Phoneme, Halbphoneme

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    BOSS

    Zwei Probleme ergeben sich für Unit Selection

    Korpus Annotation dauert zu lange und ist viel Arbeit (esmüsste für expressive Sprache ein eigener Korpus erstelltwerden)

    Es ist fraglich, ob das Timing für Gesten für Agent weitermöglich ist, wie dies bei Diphonesynthese der Fall ist

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    BOSS - lohnt sich der Aufwand?

    BOSS1

    BOSS3

    BOSS3

    Sascha Griffiths Expressive Sprachsynthese

    opr00G4I

    8712.0

    boss_s1.mp3Media File (audio/x-mp3)

    Bonn Open Synthesis System

    IKP-Forschung: Phonetik

    Other

    13320.0

    deu - http://www.ikp.uni-bonn.de/boss

    boss_s2.mp3Media File (audio/x-mp3)

    Bonn Open Synthesis System

    IKP-Forschung: Phonetik

    4608.0

    XXX - http://www.ikp.uni-bonn.de/boss

    boss_s3.mp3Media File (audio/x-mp3)

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Ziele der Magisterarbeit

    1 Theoretische Bearbeitung verschiedener Phänomene inprosodischer Sprache, die im Zusammenhang stehen mit

    EmotionenPersönlichkeitsmerkmalen

    2 Einbindung von MARY in das MAX System aufbauend aufStößel (2001)

    Sascha Griffiths Expressive Sprachsynthese

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Just for Fun

    Cepstral’s Damian

    Pavarobotti

    Nick Campell’s Synthesis

    Sascha Griffiths Expressive Sprachsynthese

    8712.0

    cepstral_damian.mp3Media File (audio/x-mp3)

    Other

    10008.0

    pavarobotti.mp3Media File (audio/x-mp3)

    58248.0

    natr_telefone.mp3Media File (audio/x-mp3)

  • EinleitungLinguistische Aspekte expressiver Sprache

    Verfahren zur SprachsyntheseMARY TTS

    Unit Selection mit BOSSZiele

    References

    Åsa Abelin and Jens Allwood. Cross linguistic interpretation ofexpressions of emotions. In Proceedings of VIII SimposioInternactional de Communicacion Social., 20-24 jan. Santiago deCuba, Kuba 2003, pages 387–393, 2003.

    A. Black. Unit selection and emotional speech, 2003. URLciteseer.ist.psu.edu/black03unit.html.

    Anders Erikson and Hartmut Traunmueller. The frequency rangeof the voice fundamental in male and female adults. manuscript,1995.

    Clifford Nass, Scott Brave, and Eun-Ju Lee. Cancomputer-generated speech have gender? - an experimental testof gender stereotypes. In Conference on Human Factors inComputing Systems, 2000.

    Astrid Paeschke and Walter F. Sendlmeier. Einschwingphase vonvokalen bei emotionaler sprechweise. In Wolfgang Hess undKarlheinz Stöber (Hrsg.): ElektronischeSprachsignalverarbeitung (ESSV-Tagungsband).w.e.b.-Universitätsverlag, 2000.

    Dirk Stößel. Ein system zur sprachsynthese für multimodalevirtuelle agenten. Master’s thesis, University of Bielefeld, 2001.

    Jürgen Trouvain, Sarah Schmidt, Marc Schröder, Michael Schmitz,and William J. Barry. Modelling personality features by changingprosody in synthetic speech. In Proc. Speech Prosody 2006,Dresden, Germany, 2006.

    Sascha Griffiths Expressive Sprachsynthese

    citeseer.ist.psu.edu/black03unit.html

    EinleitungLinguistische Aspekte expressiver SpracheSprachliche VariationStudien zu emotionaler Sprechweise und Persönlichkeitsmerkmalen

    Verfahren zur SprachsyntheseMARY TTSUnit Selection mit BOSSZieleReferences