27
Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, [email protected]

Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, [email protected]

Embed Size (px)

Citation preview

Page 1: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

Einsatzmöglichkeiten der Sprachsignalverarbeitung

Milan SIGMUND, TU Brünn, [email protected]

Page 2: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SprachSprachsignsignaall

Was ist Sprache ?

Mathematische Form „a“

)02,0200sin(1,00,1)(40

1

)140010025,0()80010075,0( kkteetsk

kk

Akustische Form

Schriftliche Form

Signalform

eins oder 1

Page 3: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SprachSprachsignsignaall

Sprache aus der technischen Sicht

Sprache = Sprachsignal (akustisches Signal)

das kann man: ► messen

► übertragen

► aufnehmen (archivieren)

► bearbeiten und verarbeiten (auch on-line)

Page 4: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AkustiAkustissccheshes SSignignaall

pabs(t)

Pm

pak(t)

pabs = Pm + pak

Atmosphärendruck Pm : langsame Schwankungen 960-1050 hPa

Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa

Absolutdruck:

t [Tage]

t [ms]

Abfolge von Luftdruckschwankungen

Maßeinheit Pascal 1 Pa = 1 N/m2

Page 5: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AkustiAkustissccheshes SSignignaall

man unterscheidet:

► periodische Klänge (Musik, Vogelgesang, Wind,....)

► nichtperiodische Klänge (Husten, Gewitterdonner,....)

► Sprache

Page 6: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AkustiAkustissccheshes SSignignaallReiner Ton

T

A

s(t)

ts(t) = A sin (2π f t + φ)

Parameter wahrgenommen als

Amplitude A Periode T resp. Frequenz fPhase φ

Tf 1

LautstärkeTonhöhe

Page 7: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AkustiAkustissccheshes SSignignaall

Audio = „ich höre“ (lateinisch)

Infraschall Schall Ultraschall

unhörbar hörbar unhörbar

16 Hz 20 000 Hz

Page 8: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AkustiAkustissccheshes SSignignaall

Hörfläche des menschlichen Gehörs

Schallquelle:

140 dB Flugzeug beim Start 120 dB Rockgruppe

80 dB belebte Strasse 70 dB normale Unterhaltung 50 dB leise Unterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel

Page 9: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AkustiAkustissccheshes SSignignaallFrequenzbereiche

Musikinstrument Frequenz [Hz] Orgel 15 – 16 000

Klavier 25 – 4 000

Kontrabass 40 – 250

Trompete 150 – 1 100

Fagott 50 – 500

Piccoloflöte 500 – 5 000

Sprache Frequenz [Hz] Bühnensprache 80 – 16 000

Alltagssprache 180 – 6 000

Telefonsprache 300 – 3 400

Page 10: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

Informationsgehalt der SpracheInformationsgehalt der Sprache

75 % Inhalt der Sprache Was?25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie?

Gesamtinformation in störungsfreiem Sprachsignal:

Nachricht

Identität

Zustand

Page 11: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SpracheingabeSpracheingabe

Spracherkennung WAS wird gesprochen?

Verbundene Wörter

Fließende Sprache

Sprechererkennung WER spricht?

Verifikation

Spezielle Erkennung WIE oder WO wird es gesprochen?

Psychische Untersuchung

Räumliche Lokalisierung

Alkoholdetektor, Lügendetektor, Ermüdungsdetektor,

- -

Einzelne Wörter

Spracheingabe Identifikation

Diagnostik von Sprachorganen

Page 12: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SSppracherkennung - Vokaleracherkennung - Vokale

Vokal „a“ im Detail

s(t) S(f)

t f

·       • periodische Signalform·       • hohe Signalenergie·       • charakterisiert durch Formanten 

Page 13: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

Spracherkennung - VokaleSpracherkennung - VokaleFormanten - lokale Maxima im Spektrum F1 - F7

- Resonanzfrequenzen von den größten Räumen des Vokaltraktes- F1 -

Rachenraum

F2 - Mundhöhle

F3 - Nasenhöhle

f

S(f)

F1 F2 F3

Page 14: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

Spracherkennung - VokaleSpracherkennung - VokaleVokal F1 [Hz] F2 [Hz]

a 800 - 1000 1200 - 1400

e 500 – 700 1600 - 2100

i 300 - 500 2100 - 2700

o 500 - 700 900 - 1200

u 300 - 500 600 - 1000

0,5 1,0 2,0 3,0 4,0

0,3

0,6

0,9

F [kHz]2

F [kHz]1

o

u

a

e

i

Page 15: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SpracherkennungSpracherkennungVariabilität des Sprachsignals

Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)

Page 16: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SpracherkennungSpracherkennungSegmentierung des Sprachsignals

nwnsns seg

Verschiebung

Überlappung Segment ~ 20-30ms

Hamming-Fensterw(n) = 0,54 - 0,46 cos(2n/N) für n = 1,

2, ..., Nw(n) = 0 sonst

N .... Länge eines Segments in Abtastwerten

Page 17: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SpracherkennungSpracherkennungSprachmerkmale:

1+ssignsign2

1 1

1

nnsZN

n

Signalenergie

s(n) - Sprachsignal N - Segmentlänge (in Abtastwerten)

Z= 19

Nulldurchgangsrate

E s nn

N

2

1

Page 18: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SpracherkennungSpracherkennung

Zeitverlauf

Energie

Log Energie

Nulldurchgangsrate

20 40 60 80 100 120 140

20 40 60 80 100 120 140

20 40 60 80 100 120 140

2000 4000 6000 8000 10000 12000 14000 16000n

Segment

1

-1

0

0

s(n)

1

0

E [-]

0

log E [dB]

0

Z [-]

0,5

0

Page 19: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SpechererkennungSpechererkennung

Merkmale des Sprachsignals

Sprache Anatomische Parameter

Optimale Merkmale

führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern

Page 20: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SpechererkennungSpechererkennungGrundfrequenz der Stimme F0

Merkmal des Sprachsignals: Grundfrequenz der Stimme F0 in Hz

Bezogener anatomischer Parameter: Länge der Stimmlippen L in mm

Page 21: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

SpechererkennungSpechererkennungWerte der Grundfrequenz F0

Normale Sprache 50 – 400 Hz

Männer 70 – 160 Hz typisch F0=110 Hz

Frauen 150 – 280 Hz typisch F0=210 Hz

Kinder 300 – 400 HzExtrem – singende weibliche Stimme bis ca. 980 Hz

Page 22: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

Anwendungen Anwendungen Spracherkennung:► Akustische Steuerung von Geräten

• Alarmstopschalter (ein Wort)• Eingabe der Rufnummer• Lichtsteuerung, …

► Fließende Sprache • Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, ….

Ziel: Diktiermaschine mit Spracheingang

Page 23: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AnwendungenAnwendungen

► Informationen

• Fahrplan, Flugplan, Telefonnummer, …

► Übersetzungen

• on-line mit Handy, ...

Datenbank

Steuerung des

Dialogs

Sprach-erkennung

řeči

Sprach- synthese

Dialogsysteme:

Page 24: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AnwendungenAnwendungen

Spechererkennung:► Verifikation

• Wegfahrsperre für Kraftfahrzeuge • telefonischer Bankauftragsdienst

► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch

Ziel: Zuverlässigkeit wie Fingerabdruck

Page 25: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AnwendungenAnwendungen

Erkennung des Sprecherzustandes:► Medizinische Untersuchungen

• Krankheiten an Sprechorganen (Krebs,...)• Alzheimer, Parkinson,…

► Psychoanalyse (teilweise)• Stress, Depression, Ermüdung• Freude, ...

Ziel: automatische Diagnose

Page 26: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

AnwendungenAnwendungen

Spezielle Analyse (Erkennung):

► Test nach Alkohol vor Autofahren - Dialog über Handy

► Schätzung des IQ bei kleinen Kindern- Analyse des Baby-Weinens

► Lügendetektor- software im Internet ?

Page 27: Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

LeistungsvergleichLeistungsvergleich

Technisches System (PC):► erkennt Sprecher und weiblich/männlich schneller (40ms)

► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann

Gehirn:► kann eine Stimme aus der Stimmenmischung filtern► bessere Übersetzung in fremde Sprache► bessere Rekonstruktion der fehlenden Frequenzen

(Telefon, Laptop)► bessere Rekonstruktion der falschen Wörter

(gebrochene Sprache)