01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1....

Preview:

Citation preview

Spracherkennung

2. Sitzung16. Oktober 2008

Überblick 1. Sitzung

• Organisatorisches– Übungen und Scheinkriterien– Termine– Sprechstunde und Webseite

• Inhaltlicher Überblick

Allgemeines

• Übungen– Bislang: NN– Vorschlag: Block am Semesterende– Terminvorschlag: Februar 2009

• Scheinkriterien– Anwesenheit– Vorbereitung– Prüfung

Leistungspunkte

• 1 Leistungspunkt = 30 Stunden

• Vorlesung 3 SWS (*15 Wochen) = 1.5 LP• wöchentliche Vorbereitung 3SWS = 1.5 LP• Übungen 1 SWS = 0.5 LP• Prüfung: 60 Stunden = 2.0 LP

Summe = 5.5 LP

Termine

29. Jan26. Jan29 + 30

5. Feb2. Feb31 + 32

22. Jan19. Jan27 + 28

15. Jan12. Jan25 + 26

8. Jan5. Jan23 + 24

25. Dez - fällt aus22. Dez21 +22

18. Dez15. Dez19 + 20

11. Dez8. Dez17 + 18

4. Dez1. Dez15 + 16

27. Nov24. Nov13 + 14

20. Nov17. Nov11 + 12

13. Nov10. Nov9 + 10

6. Nov3. Nov7 + 8

30. Okt27. Okt5 + 6

23. Okt20. Okt3 + 4

16. Okt13. Okt1 + 2

Donnerstag, 12-14h, S2-137Montag, 14-16h, E1-148Sitzung

Sonstiges

• Sprechstunde:• Zeit: nach Vereinbarung• Büro: Q2 - 127• Tel: 2953• email: bwrede@techfak• Webseite

http://aipc1.techfak.uni-bielefeld.de/~bwrede/ASR/– Folien– Paper– Skript (von Prof. Dr. Gernot A. Fink, Uni Dortmund)

Inhaltlicher Überblick

Inhaltlicher Überblick

Teil 1:• Einführung• Sprachproduktion• Akustische Grundlagen• Sprachwahrnehmung

Inhaltlicher Überblick

Teil 2:5. Diskretisierung / Digitalisierung6. Merkmalsberechnung (Kurzzeitanalyse)7. Spracherkennung mit einfachem

Mustervergleich (DTW)

Inhaltlicher Überblick

Fortsetzung Teil 2:8. Hidden Markov Modelle9. Sprachmodellierung10. Angewandte Spracherkennung

1. Teil

1. Einführung

1.1 Was ist Spracherkennung?

Text-produktion

Artiku-lation

Merkmals-extraktion

De-kodierung

LinguistischeQuelle

Akustischer Kanal Sprach-erkennung

w X

P(w) P(X|w) argmax P(w|X)

1.1 Was ist Spracherkennung?

Text-produktion

Artiku-lation

Merkmals-extraktion

De-kodierung

w X

2. Sprach-produktion

3. Akustik 4. Sprach-wahrnehmung

5. Diskretisierung6. Merkmalsberechnung

7. DTW8. HMMs9. Sprachmodellierung

1.1 Was ist Spracherkennung?

Traditionell:

„ ...die korrekte textuelle Darstellung des Gesprochenen...rekonstruieren“

[Schukat-Talamazzini, 1995]

Korrekte textuelle Darstellungguten Tag Herr Schenk guten Tag Frau Schrade wie geht es Ihnen ja Danke sehr gutjetzt haben wir ja Hamburg gut hinter uns gebracht jetzt m"ussen wir ja nach Potsdamnach Potsdam ach ja die $O $P $K $S ja genau sagen wir ach wir m"ussen ja schonwieder f"unf Tage weg wie w"are es denn bei Ihnen in der zweiten Maiwoche zweiteMaiwoche nein tut mir leid da mu"s ich in Rothenburg sein in Rothenburg ja dann ochsehen wir mal Juni erste Woche bin ich in Freiburg und die zweite Woche im Junizweite Juniwoche die ist frei aber ich h"atte auch noch nein die zweite Juniwoche istdas einzigste das ist das einzigste ja dann w"urden wir das doch gleich ausmachen jaoder ich h"atte noch den April wie w"are es mit der letzten Aprilwoche letzteAprilwoche Sie meinen da vom neunundzwanzigsten ab nein ich meine denzweiundzwanzigsten ah ja oh nein da mu"s ich nach Koblenz da bin ich zwei Tage inKoblenz das geht leider nicht na gut dann Juni

SprecherzuordnungA guten Tag Herr SchenkB guten Tag Frau Schrade wie geht es IhnenA ja Danke sehr gut jetzt haben wir ja Hamburg gut hinter uns gebracht jetzt m"ussen wir ja nach

PotsdamB nach Potsdam ach ja die $O $P $K $SA ja genau sagen wir ach wir m"ussen ja schon wieder f"unf Tage weg wie w"are es denn bei Ihnen in

der zweiten MaiwocheB zweite Maiwoche nein tut mir leid da mu"s ich in Rothenburg seinA in RothenburgB jaA dann och sehen wir mal Juni erste Woche bin ich in Freiburg und die zweite Woche im JuniB zweite Juniwoche die ist frei aber ich h"atte auch noch nein die zweite Juniwoche ist das einzigsteA das ist das einzigste ja dann w"urden wir das doch gleich ausmachenB ja oder ich h"atte noch den April wie w"are es mit der letzten AprilwocheA letzte Aprilwoche Sie meinen da vom neunundzwanzigsten abB nein ich meine den zweiundzwanzigstenA ah ja oh nein da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nichtB na gut dann Juni

Sinneinheiten durch ProsodieA guten Tag Herr Schenk!B guten Tag Frau Schrade! wie geht es Ihnen?A ja Danke, sehr gut. jetzt haben wir ja Hamburg gut hinter uns gebracht. jetzt m"ussen wir ja nach

Potsdam.B nach Potsdam? ach ja die $O $P $K $S.A ja genau. sagen wir - ach wir m"ussen ja schon wieder f"unf Tage weg! wie w"are es denn bei Ihnen

in der zweiten Maiwoche?B zweite Maiwoche? nein tut mir leid, da mu"s ich in Rothenburg sein!A in Rothenburg ?B ja.A dann - och - sehen wir mal - Juni erste Woche bin ich in Freiburg und die zweite Woche im Juni /B zweite Juniwoche die ist frei! aber ich h"atte auch noch / nein die zweite Juniwoche ist das einzigste!A das ist das einzigste? ja dann w"urden wir das doch gleich ausmachen!B ja oder ich h"atte noch den April! wie w"are es mit der letzten Aprilwoche ?A letzte Aprilwoche? Sie meinen da vom neunundzwanzigsten ab ?B nein ich meine den zweiundzwanzigsten!A ah ja. oh nein! da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nicht !B na gut dann Juni .

Evaluative Aspekte durch ProsodieA guten Tag Herr Schenk!B guten Tag Frau Schrade! wie geht es Ihnen?A ja Danke, sehr gut. jetzt haben wir ja Hamburg gut hinter uns gebracht. jetzt m"ussen wir ja nach

Potsdam.B nach Potsdam? ach ja die $O $P $K $S.A ja genau. sagen wir - ach wir m"ussen ja schon wieder f"unf Tage weg! wie w"are es denn bei Ihnen

in der zweiten Maiwoche?B zweite Maiwoche? nein tut mir leid, da mu"s ich in Rothenburg sein!A in Rothenburg ?B ja.A dann - och - sehen wir mal - Juni erste Woche bin ich in Freiburg und die zweite Woche im Juni /B zweite Juniwoche die ist frei! aber ich h"atte auch noch / nein die zweite Juniwoche ist das einzigste!A das ist das einzigste? ja dann w"urden wir das doch gleich ausmachen!B ja oder ich h"atte noch den April! wie w"are es mit der letzten Aprilwoche ?A letzte Aprilwoche? Sie meinen da vom neunundzwanzigsten ab ?B nein ich meine den zweiundzwanzigsten!A ah ja. oh nein! da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nicht !B na gut dann Juni .

1.1 Was ist Spracherkennung?

Zusätzliche neue Ansätze „Rich Transcription“:• Sprecherzuordnung• Sinneinheiten (Punkt, Komma) durch

prosodische Merkmale• Evaluative Aspekte (Emotionen) durch

prosodische Merkmale• ...

1.2 Warum ist Spracherkennungschwierig?

• Uni-modal• Sprache ist kontinuierlich, Abbildung ist diskret

– Einzelworterkennung– Isolierte Wörter– Erkennung kontinuierlicher Sprache

• Variabilität– Akustisch (Mikrofon, Situation...)– Lautlich (Betonung, Kontext, Semantik...)– Zwischen SprecherInnen (Sprechstil [Tempo,

Lautstärke, Emotion...], Dialekt, Idiolekt, Geschlecht,Alter...)

1.2 Warum ist Spracherkennungschwierig?

Beispiel

1.2 Warum ist Spracherkennungschwierig?

• Ambiguität– Homophonie (Rad oder Rat?)– Wortgrenzen: „It isn‘t easy...

• to wreck a nice beach“• to recognize speech“

• Komplexität– Hohe Datenrate des abgetasteten Signals

• 16.000 Werte / Sekunde• 120-150 Wörter / Minute• Ca. 100.000 verschiedene Wörter

1.3 Was geht heute schon mitSpracherkennung?

• Kommandosysteme– Radiowecker– Namenswahl im Handy– Nicht-sicherheitsrelevante Funktionen im Auto

(Navigation, Telefon, Klimaanlage...)• Diktiersystem

– Für spezielle Berufsgruppen (Ärzte, Juristen..)– Für kooperative Normalverbraucher

1.3 Was geht schon?

• Audio-/Video-Datenbanksuche/-indizierung (z.B.von Rundfunksendungen)

• Schulung– Fremdsprachenerwerb– Bei Sprechstörungen

• Dialogsysteme (oft telefonisch)– „ja“-“nein“, Ziffern, Menüführung– Auskunftssysteme (Kino, Fahrplan)– Buchungssysteme / Telefonbanking

• Militärische Varianten

1.3 Maschinelle vs menschlicheErkennungsleistung

40 - 67%4%2.000(unbegrenzt)

SpontaneTelefon-

gespräche

Switchboard

6.6%0.4%65.000(unbegrenzt)

GeleseneSätze

NorthAmerican

Business News

7.2%0.9%5.000(unbegrenzt)

GeleseneSätze

Wall StreetJournal

3.6%0.1%1.000GeleseneSätze

ResourceManagement

5%1.6%26GelesenesAlphabet

Buchstaben

FehlerrateMaschine

FehlerrateMensch

VokabularBeschrei-bung

Korpus

[Lippmann 1997]

2 Sprachproduktion

Überblick

2.1 Vokaltrakt2.2 Source-Filter Modell2.3 Phonetische Beschreibung2.4 Was ist ein Laut?

2.1 Vokaltrakt

[Clark & Yallop, 1991]

2.1 Funktionales Modell desVokaltrakts

[Clark & Yallop, 1991]

2.2 Source-Filter Modell

Quelle: Stimmbänderfundamentale Anregungstimmhaft - stimmlos

Filter: VokaltraktUmformung desAnregungssignals Sprach-

signal

2.3 Phonetische Beschreibung:Konsonanten

• Phonation: stimmhaft - stimmlosSpezialfall Glottisverschluß [?]:

ver[?]eisen - verreisen

Hinweis: phonetische Symbole nach SAMPA (basierend auf IPA)

• Artikulationsort (s. Vokaltrakt)• Artikulationsart

– Nasalierung: nasal - oral– Öffnungsgrad:

Verschluss - Friktionsenge - friktionslose Enge– Engebildung: zentral - lateral

2.3 Lautsystem des Deutschen:Konsonanten

% - rTrill

% - N% - n% - mNasal

% - j% - lApproximant

Rx - %c - %S - Zs - zf - vFrikativ

?k - gt - dp - bPlosiv

GlottalUvularLabio-velar

VelarPalatal(Lamino)

Palatal(Apico)

Post-alveolar

Alveo-lar

DentalLabio-dental

Bi-labial

2.3 Phonetische Beschreibung:Vokale

• artikulierender Zungenteil– vorne - mitte - hinten

• Zungenhöhe– geschlossen - halboffen - offen

• Lippenrundung– gerundet - ungerundet

• Dauer– kurz - lang

Beispiel: Vokalproduktion

2.2 Lautsystem des Deutschen:Vokale

i y

a:

e 2

E

a

@

6

u

oO9

I Y U

hintenvorne

tief / offen

hoch /geschlossen

2.3 Was ist ein Laut?Phonem• Definition: Ein Phonem ist die kleinste

bedeutungsunterscheidende Einheit

• Ermittlung von Phonemen überMinimalpaarbildung:

train - twain [trEIn] - [twEIn]

• Phoneme sind sprachabhängig

• Phoneme werden realisiert durch Allophone

2.3 Was ist ein Laut?Allophon

• Definition: Sounds which count as alternative ways of sayinga phoneme [Clark & Yallop 1995:125]

• Allophone befinden sich in komplementärer Distribution:c nach [ E I Y e i y ]x nach [ a a: O U o u ]

• normalerweise unterscheiden sich Allophone jedoch nur durchKoartikulation:

k: in Kuh ist gerundetk: in Katze ist nicht gerundet

Recommended