Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation Christine Mooshammer & Jennifer Schneeberg Institut für Phonetik und digitale Sprachverarbeitung

Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation

Christine Mooshammer

& Jennifer Schneeberg

Institut für Phonetik und digitale Sprachverarbeitung

Christian-Albrechts-Universität Kiel

Deutschland

DAGA 2005 München

Einführung

Globale Lautstärkeerhöhung primär: größerer subglottaler Luftdruck

Schnelleres Schließen der Stimmlippen

(höhere f0)

Flacher abfallendes Quellspektrum

sekundär: supralaryngale ArtikulationLängung der VokaleTieferer Kiefer bei Vokalen und damit

höherer F1

DAGA 2005 München

Einführung

Lokale Lautstärkeänderung: = linguistisch bedingt: Akzentuierung Wortakzent in Sprachen mit dynamischen

Akzent (z.B. „Tenor“) Intensität als Hauptmerkmal neben Dauer

und Grundfrequenz(s. Sweet 1906, Sluijter et al. 1996)

kontrolliert durch subglottalen Luftdruck Nachweis: Änderung des spectral tilts Gilt auch in deakzentuierter Position, d.h.

ohne Grundfrequenzunterschiede

DAGA 2005 München

Einführung Satzbetonung: realisiert durch melodische

Unterschiede mittels Anpassung der Stimmlippenspannung

Hypothesen:I. Nur lexikalischer Wortakzent bewirkt ähnliche

Änderungen in den stimmlichen Parametern wie globale Lautstärkeänderungen, nicht aber der Satzakzent.

II. Unterschiede in der Wortbetonung sind unabhängig davon, ob das Wort satzbetont ist oder nicht.

DAGA 2005 München

Korpus

1. WortakzentStressed

[+S]

Unstressed

[-S]

/ / Lena

/Lenor

/

/ / Sehnen

/Senat

/

DAGA 2005 München

Korpus2. Satzbetonung: Frage-Antwort Paradigma

(durch Variation des Fokus + Emphase)

FOCUS [+F]

Q: Wolltest Du Dir Friedas Buch ausleihen?

A: Nein, ich wollte Lenas Buch ausleihen.

NON-FOCUS [-F]

Q: Wie findest Du Lena?

A: Ich hasse Lena und ihre Schusseligkeit.

DAGA 2005 München

Korpus3. Globale Lautstärkevariation

Sätze mit wortbetonten, fokussierten Testsequenzen wurden in drei Lautstärkebedingungen gesprochen:

Normal (N) laut: „Sprich laut ohne zu schreien“ (L) leise: „Sprich leise ohne zu flüstern“ (S)

8 bis 9 Wiederholungen

DAGA 2005 München

Aufnahmen 6 Sprecher aus Norddeutschland (20-30

Jahre alt, Nichtraucher, männlich) Akustik und Glottissignal (Lx) mittels

Laryngographie (Glottal Enterprises) Die erste Ableitung des Lx-Signals

(DEGG) wurde mittels Differenzierung berechnet.

Akustische Etikettierung mit Praat

DAGA 2005 München

Messungen Lx Halbautomatische Etikettierung mittels EMU/R Alle Perioden während des Vokals /e/

Analysierte Parameter:

a) f0 basierend auf dem DEGG Signal

b) RMS basierend auf dem Audio-Signal

c) Open Quotient OQ

d) Speed Quotient SQ

e) Steigungen der Öffnungs- und Schließungsbewegungen (Oslope, Cslope)

DAGA 2005 München

Messungen Open Quotient:

100*top/T Problem: Festlegung

des Zeitpunkts der Öffnung:

752 754 756 758 760

-3-2

-10

12

3

times

lxx

* 2

T

top1

1. Negativer Gipfel der ersten Ableitung = top1

top2

2. 4/7 Schwellwert (Howard‘s method) = top2

DAGA 2005 München

Messungen

Speed Quotient:

100*tcl/top

(10% Schwellwert)

736 738 740 742 744

-600

0-4

000

-200

00

2000

4000

6000

8000

timesl

data

l

SQ= 20.93

Schließung Öffnung

toptcl

Cslope Cslope

Oslope

Oslope

DAGA 2005 München

Vorhersagen(basierend auf Marasek (1997), Zwei-Massen-Modell -> Lx-Signal aus Glottisfläche)

Parameter Stress

Loudness

Focus

Pitch

OQ

SQ ()

Cslope =

Oslope =

Problem: Trennung der Einflüsse des subglottalen Luftdrucks und der Stimmlippenspannung auf die EGG Parameter

DAGA 2005 München

Stimmparameter: globale Lautstärke

• Für alle Sprecher signifikante Unterschiede zwischen den Lautstärkeniveaus

50

55

60

65

70

75

RM

S [dB]

50

55

60

65

70

75

loud normal soft

/l//z/

Intensität

• Bei lautem Sprechen: höhere f0 und größerer Bereich

• Signifikant tiefere f0 bei leisem Sprechen

100

140

180

f0 [H

z]

100

140

180

loud normal soft

/l//z/

Grundfrequenz

DAGA 2005 München

Stimmparameter: globale Lautstärke

• OQ vergrößert sich von laut und normal nach leise

• Konsistent für alle Sprecher

4050

6070

OQ

[%]

4050

6070

loud normal soft

/l//z/

Open Quotient

• Signifikant steilere Steigungen für lautes Sprechen

• Konsistent für laut-normal• Nur 3 Spr. für normal-leise

20

00

60

00

OS

lop

e

20

00

60

00

loud normal soft

/l//z/

Steigung der Öffnungsbewegung

DAGA 2005 München

Stimmparameter: Prominenz

Konsonanteneffekt bei [-F]:• /l/: F0 unterscheidet sich für

Wortakzent (aufgrund von 2 Sprechern)f0_stress.jpg

8012

016

0

f0 [H

z]

8012

016

0

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l//z/

Grundfrequenz

Fokus Non-Fokus

•/z/: F0 Neutralisation

5560

6570

RM

S [d

B]

5560

6570

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l//z/

Intensität

Fokus Non-Fokus

• /l/: Wortakzent bewirkt höhere Intensität bei +F und –F

•/z/: höhere Intensität bei –F nur bei 3 Sprechern

DAGA 2005 München

Stimmparameter: ProminenzVorhersagen:• Wortakzent: [+S]<[-S]• Fokus: [+F]>[-F]

Wortakzent: • niedrigerer OQ für [+S] • ähnlich laut-normal

4555

6575

OQ

[%]

4555

6575

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l//z/

Fokus: • meist niedriger für [+F] • entgegen Vorhersage

Open Quotient

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

5052

5456

5860

/l//z/

Fokus Non-Fokus

DAGA 2005 München

Stimmparameter: Prominenz

Wortakzent: • [+F]: vier Sprecher zeigen

steilere Steigungen für [+S]• [-F]: 4 Sprecher /l/,

nur 1 Sprecher /z/

Fokus: • In beiden Bedingungen

meist signifikanter Anstieg der Steigung für [+F]

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

01000

2000

3000 /l/

/z/

Fokus Non-Fokus

Vorhersagen:•Wortakzent: [+S]>[-S]•Fokus: [+F]=[-F]

Steigung der Öffnungsbewegung

DAGA 2005 München

Zsf.: Stimmparameter Lautes Sprechen: erhöhter subglottaler Luftdruck Leises Sprechen: weniger konsistente

Druckunterschiede Änderung der Stimmqualität zu behaucht?

Wortakzent: Evidenz für höheren subglottalen Luftdruck nur bei fokussierten Wörter und hauptsächlich nach /l/

Fokus: kaum Hinweise auf geänderte Stimmlippen-spannung, dafür Evidenz für erhöhten Luftdruck

Tentative Erklärung:

1. Bestimmung des Zeitpunkts der glottalen Öffnung

2. Verwendete Parameter könnten abhängig von der Grundfrequenz sein (z.B. Steigungen).

DAGA 2005 München

2. Formanalyse Alternativer holistischer Ansatz: gesamte

Wellenform bildet die Basis, z.B. PCA (Mokhtari et al. 2003) oder Functional Data Analysis (FDA, z.B. Ramsay)

Input:• Mittlere zwei Perioden• Zeit- und amplituden-

normalisiert

0 200 400 600 800 1000

0.0

0.2

0.4

0.6

0.8

1.0

Normalized time

No

rma

lize

d a

mp

litu

de

• 317 ItemsVerarbeitung:• Berechnung von Spline

Funktionen

DAGA 2005 München

Hauptkomponentenanalyse:Positiv: längere Geschlossenphase, steile Verschließbewegung, linksschief

Negativ: lange Offenphase, langsamere Verschließbewegung, symmetrischer Impuls

FaktorscoresLautstärke:

Laut: pos. Werte

Normal: Werte um null

Leise: neg. Werte

Wortakzent:

„Lena“: positive Werte

„Lenor“: negative Werte

Fokus: kein Unterschied

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

++++

0.1 0.2 0.3 0.4 0.5 0.6 0.7

0.0

0.4

0.8

PCA function 1 (Percentage of variability 64.3 )Normalized time

-------------------------------------

--------------------------------------------------

Click to advance to next plotHauptkomponente (64.3 %)

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

Alle Sprecher

Fakt

or 1

-0.0

50.

000.

05

Lena

Lenor

LautstärkeX

XX

DAGA 2005 München


BD Var= 79-0

.10

0.00

0.10


DP Var= 75

-0.1

00.

000.

10


GA Var= 80

-0.1

00.

000.

10


NU Var= 65

-0.1

00.

000.

10


SB Var= 76

-0.1

00.

000.

10


SZ Var= 76

-0.1

00.

000.

10

Lena Lenor Lena Lenor

Lautstärke

XX

XXX

Signifikant für 5 Sprecher

Prominenz: keine signifikanten Effekte

DAGA 2005 München


BD Var= 71

-0.1

00.

000.

10


DP Var= 81

-0.1

00.

000.

10


GA Var= 76

-0.1

00.

000.

10


NU Var= 75

-0.1

00.

000.

10


SB Var= 76

-0.1

00.

000.

10


SZ Var= 78-0

.10

0.00

0.10

Sehnen Senat Sehnen Senat

Prominenz:signifikanten Effekte bei DP

Lautstärke: signifikante Effekte bei 5 Sprechern

DAGA 2005 München

Schlussfolgerungen Globale Lautstärkeveränderung: verändert die

Form des glottalen Pulses Wortakzent:

Sehr inkonsistente Effekte Nur für einen Sprecher in die erwartete

Richtung Nachdem f0- und Amplitudenunterschiede

entfernt wurden, ergeben sich keine Effekte für Wortakzent

DAGA 2005 München

Schlussfolgerungen (cont.) Warum keine Effekte bei Prominenz?

1. Unterschiede könnten zu subtil sein, um sich signifikant niederzuschlagen.

Keine klare Tendenz erkennbar2. Unterschiede zeigen sich nicht im Lx Signal

aufgrund der bekannten Probleme Lautstärkeeffekte sind sehr konsistent3. Wortakzent wird nicht durch Änderung des

subglottalen Luftdrucks realisiert Neue Hypothese: Flacherer Abfall bei

wortbetonten Vokalen ist eine Folge der laryngalen und/oder supralaryngalen Artikulation

DAGA 2005 München

Ausblick Parameter des spektralen Abfalls

spectral balance, spectral tilt und spectral emphasis??? Abhängig von Grundfrequenz ???

Systematischer Vergleich zwischen verschiedenen Maßen mittels Synthese

Supralaryngale Artikulation: Parameter wie Dauern und Formanten Vorläufige Ergebnisse:

große Unterschiede bei Wortakzent, aber nicht in Richtung lautes Sprechen

nur selten konsistente Unterschiede für Fokus Erhebung von artikulatorischen Daten

Documents

Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation Christine Mooshammer & Jennifer Schneeberg Institut für Phonetik und digitale Sprachverarbeitung