Lesen von Sonagrammen I: Grundlagen - phonetik.uni-muenchen.dereichelu/kurse/sonagramme/sona... ·...

Preview:

Citation preview

Lesen von Sonagrammen I:Grundlagen

Uwe Reichel

IPS, LMU Munchen

reichelu@phonetik.uni-muenchen.de

16. November 2007

Inhalt

• Das Sonagramm: Allgemeines

• Gewinnung des Sonagramms– Zeitsignal

– Spektrum

– Spektrogramm

• Breitband- vs. Schmalbandsonagramm

• Grobe Orientierung

• Analyseschwierigkeiten

Bemerkung: die hier abgedruckten Sonagramme stammen von KirstenMacheletts Online-Script zum Lesen von Sonagrammen.http://www.phonetik.uni-muenchen.de/Lehre/Skripten/SGL/SGLHome.html

1

Das Sonagramm: Allgemeines

Abbildung 1: Sonagramm

2

Sichtbarmachung von akustischen Sprachsignalen: Darstellung des Signalsin 3 Dimensionen

• Zeit (ms): x-Achse

• Frequenz (Hz): y-Achse

• Energie: z-Achse (Schwarzungsgrad)

3

Gewinnung des Sonagramms

Zeitsignal −→ Spektrum −→ Sonagramm

Zeitsignal

• Schalldruckschwankungen uber die Zeit in einem festen Raumpunkt

• x-Achse – Zeit, y-Achse – Schalldruckamplitude

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−5

−4

−3

−2

−1

0

1

2

3

4

5

Zeit

Am

plitu

de

Zeitsignal

Abbildung 2: Zeitsignal: Amplitudenschwankungen uber die Zeit

4

• Fensterung des Zeitsignals

Abbildung 3: Fensterung des Signals s(n) in der Kurzzeitanalyse. Q: Messintervall, K: Fen-

sterlange; da Q < K: Uberlappung der Fenster; sk: Kurzzeitsignal; w: Fenster (Gewichtungs-

funktion).

5

Spektrum

• Fur jedes dieser Fenster Ermittlung eines Spektrums: Schalldruck inAbhangigkeit der Frequenz (Zeit “eingefroren”). Dies geschieht mit Hilfe dersog. Fourier-Transformation (siehe Einfuhrung in die Akustik).

• x-Achse – Frequenz, y-Achse – Schalldruckamplitude

Abbildung 4: Links: Zeitsignal einer komplexen Schwingung (rot), die sich additiv aus Teil-schwingungen (blau, grun) zusammensetzt. Ihre Grundfrequenz ist gleich der Frequenz dertiefsten Komponente. Rechts: Amplitudenspektrum dieser Schwingung. Zu den Frequenzenihrer Teilschwingungen ist jeweils die entsprechende Amplitude angetragen.

6

Einige Schallarten und zugehorige Spektren

• Klang: komplexe Schwingung, die sich aus einzelnen Schwingungenzusammensetzt. Die tiefste Schwingung wird als Grundton bezeichnet undihre Frequenz als Grundfrequenz (f0). In der engen Definition bestehenKlange aus Schwingungen, deren Frequenzen sich im ganzzahligen Verhaltniszur Grundfrequenz befinden (Obertone oder Harmonische als ganzzahligeVielfache der Grundfrequenz).

• Gerausch: zusammengesetzte Schwingung, deren Komponenten unendlichnah beieinander liegen

• Bezug zu Sprachlauten:– Klange ≈ Vokale

– Gerausche = stimmlose Konsonanten

– Klang-Gerausche = stimmhafte Konsonanten

7

• Linienspektren: Spektren von Klangen (z.B. Vokale, stimmhafteSignalabschnitte)– je tiefer f0, desto enger liegen die Linien beieinander.

• Kontinuierliche Spektren: fur Impulse (z.B. Verschlusslosungen beiPlosiven) und Rauschen (Frikative)

8

Abbildung 5: Linienspektren und Kontinuierliche Spektren

9

Sonagramm

• Die Aneinanderreihung dieser Spektren ergibt ein Spektrogramm (z.B.Sonagramm)

• x-Achse – Zeit, y-Achse – Frequenz, z-Achse (Schwarzungsgrad) –Schalldruckamplitude

Abbildung 6: Sonagramm

10

Breitband- vs. Schmalbandsonagramm

• Lange des Analysefensters (vgl. Fensterung des Zeitsignals) bestimmt Zeit-und Frequenzauflosung im Sonagramm

• kurzes Fenster: hohe Zeit-, niedrige Frequenzauflosung −→Breitbandsonagramm

• langes Fenster: niedrige Zeit-, hohe Frequenzauflosung −→Schmalbandsonagramm

• Zusammenhang uber Heisenberg’sche Unscharferelation gegeben(∆f ·∆t ≥ const.)

• Band bedeutet in diesem Zusammenhang: Frequenzbereich, innerhalb dessennicht zwischen den Amplituden zu den unterschiedlichen Frequenzenunterschieden wird.

11

Fensterlange BandbreiteBreitband 5 260Schmalband 30 43

Tabelle 1: Ubliche Fensterlangen (in ms) und zugehorige Bandbreiten (in Hz)

12

Abbildung 7: Schmalband- (oben) und Breitbandsonagramm (unten)

13

Konsequenzen in der Darstellung

• Schmalbandsonagramm: Obertone sichtbar

• Breitbandsonagramm: Glottisschlage und Energieschwerpunkte (Formanten)sichtbar

• Oberton 6= Formant:– Grund- und Obertone gehoren zum Spektrum des Anregungssignals, das

an der Glottis entsteht

– Der Artikulationstrakt verformt dieses Spektrum in Abhangigkeit seinerResonanzeigenschaften. Dadurch entstehende im SpektrumAmplitudenmaxima (Energieschwerpunkte), die als Formanten bezeichnetwerden.

– siehe Quelle-Filter-Theorie in Einf. Akustik

• Fur die phonetische Segmentierung wird das Breitbandsonagramm verwendet,da es dabei einer hohen zeitlichen Auflosung bedarf und Formanten erkennbarsein mussen.

14

Grobe Orientierung im Sonagramm

stimmhafte Abschnitte• durch senkrechte Linien gekennzeichnet. Sie werden durch Glottisschlage

(glottale Verschlusse) hervorgerufen

• bei Vokalen gehen die Linien uber den gesamten Frequenzbereich

• bei stimmhaften Plosiven sind sie nur bis etwa 500 Hz festzustellen (voicebar: schwarzer Balken im unteren Frequenzbereich)

Grundfrequenz• im Schmalbandsonagramm: man zahlt die Harmonischen in einem gewahlten

Frequenzbereich, z.B. 0-1000 Hz und dividiert den Umfang (hier 1000 Hz)durch die Anzahl der gefundenen Obertone

• im Breitbandsonagramm: man ermittelt den zeitlichen Abstand (diePeriodendauer T0) zwischen zwei Glottisschlagen. Die Grundfrequenz F0 istdann der Kehrwert der Periodendauer in Sekunden.Bsp.: T0=10ms=0.01s −→ F0=1/0.01s=100 Hz

15

Silben- und Lautdauern

• Silbendauer: etwa 200–400 ms

• Lautdauer: etwa 30–200 ms

Frequenzachse

• der dargestellte Frequenzbereich geht i.d.R. von 0 bis 8000 Hz

• die Skalierung erfolgt 1000 Hz-Schritten (bei Vokalen manchmal in 500Hz-Schritten, da hier die relevante Information schon im Bereich zwischen 0und 4000 Hz zu finden ist)

16

Schwierigkeiten bei der Analyse der Sonagramme

In der fließenden Rede auftretende Phanomene:

• Koartikulation: artikulatorische −→ akustische Uberlappung vonSprachlauten

• Undershoot: Nichterreichen der artikulatorischen −→ akustischenZielkonfiguration

Abbildung 8: [z] [o] [n] [a] vs. [zona]

17

Recommended