37
Spracherkennung 2. Sitzung 16. Oktober 2008

01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Spracherkennung

2. Sitzung16. Oktober 2008

Page 2: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Überblick 1. Sitzung

• Organisatorisches– Übungen und Scheinkriterien– Termine– Sprechstunde und Webseite

• Inhaltlicher Überblick

Page 3: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Allgemeines

• Übungen– Bislang: NN– Vorschlag: Block am Semesterende– Terminvorschlag: Februar 2009

• Scheinkriterien– Anwesenheit– Vorbereitung– Prüfung

Page 4: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Leistungspunkte

• 1 Leistungspunkt = 30 Stunden

• Vorlesung 3 SWS (*15 Wochen) = 1.5 LP• wöchentliche Vorbereitung 3SWS = 1.5 LP• Übungen 1 SWS = 0.5 LP• Prüfung: 60 Stunden = 2.0 LP

Summe = 5.5 LP

Page 5: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Termine

29. Jan26. Jan29 + 30

5. Feb2. Feb31 + 32

22. Jan19. Jan27 + 28

15. Jan12. Jan25 + 26

8. Jan5. Jan23 + 24

25. Dez - fällt aus22. Dez21 +22

18. Dez15. Dez19 + 20

11. Dez8. Dez17 + 18

4. Dez1. Dez15 + 16

27. Nov24. Nov13 + 14

20. Nov17. Nov11 + 12

13. Nov10. Nov9 + 10

6. Nov3. Nov7 + 8

30. Okt27. Okt5 + 6

23. Okt20. Okt3 + 4

16. Okt13. Okt1 + 2

Donnerstag, 12-14h, S2-137Montag, 14-16h, E1-148Sitzung

Page 6: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Sonstiges

• Sprechstunde:• Zeit: nach Vereinbarung• Büro: Q2 - 127• Tel: 2953• email: bwrede@techfak• Webseite

http://aipc1.techfak.uni-bielefeld.de/~bwrede/ASR/– Folien– Paper– Skript (von Prof. Dr. Gernot A. Fink, Uni Dortmund)

Page 7: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Inhaltlicher Überblick

Page 8: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Inhaltlicher Überblick

Teil 1:• Einführung• Sprachproduktion• Akustische Grundlagen• Sprachwahrnehmung

Page 9: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Inhaltlicher Überblick

Teil 2:5. Diskretisierung / Digitalisierung6. Merkmalsberechnung (Kurzzeitanalyse)7. Spracherkennung mit einfachem

Mustervergleich (DTW)

Page 10: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Inhaltlicher Überblick

Fortsetzung Teil 2:8. Hidden Markov Modelle9. Sprachmodellierung10. Angewandte Spracherkennung

Page 11: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1. Teil

1. Einführung

Page 12: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.1 Was ist Spracherkennung?

Text-produktion

Artiku-lation

Merkmals-extraktion

De-kodierung

LinguistischeQuelle

Akustischer Kanal Sprach-erkennung

w X

P(w) P(X|w) argmax P(w|X)

Page 13: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.1 Was ist Spracherkennung?

Text-produktion

Artiku-lation

Merkmals-extraktion

De-kodierung

w X

2. Sprach-produktion

3. Akustik 4. Sprach-wahrnehmung

5. Diskretisierung6. Merkmalsberechnung

7. DTW8. HMMs9. Sprachmodellierung

Page 14: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.1 Was ist Spracherkennung?

Traditionell:

„ ...die korrekte textuelle Darstellung des Gesprochenen...rekonstruieren“

[Schukat-Talamazzini, 1995]

Page 15: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Korrekte textuelle Darstellungguten Tag Herr Schenk guten Tag Frau Schrade wie geht es Ihnen ja Danke sehr gutjetzt haben wir ja Hamburg gut hinter uns gebracht jetzt m"ussen wir ja nach Potsdamnach Potsdam ach ja die $O $P $K $S ja genau sagen wir ach wir m"ussen ja schonwieder f"unf Tage weg wie w"are es denn bei Ihnen in der zweiten Maiwoche zweiteMaiwoche nein tut mir leid da mu"s ich in Rothenburg sein in Rothenburg ja dann ochsehen wir mal Juni erste Woche bin ich in Freiburg und die zweite Woche im Junizweite Juniwoche die ist frei aber ich h"atte auch noch nein die zweite Juniwoche istdas einzigste das ist das einzigste ja dann w"urden wir das doch gleich ausmachen jaoder ich h"atte noch den April wie w"are es mit der letzten Aprilwoche letzteAprilwoche Sie meinen da vom neunundzwanzigsten ab nein ich meine denzweiundzwanzigsten ah ja oh nein da mu"s ich nach Koblenz da bin ich zwei Tage inKoblenz das geht leider nicht na gut dann Juni

Page 16: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

SprecherzuordnungA guten Tag Herr SchenkB guten Tag Frau Schrade wie geht es IhnenA ja Danke sehr gut jetzt haben wir ja Hamburg gut hinter uns gebracht jetzt m"ussen wir ja nach

PotsdamB nach Potsdam ach ja die $O $P $K $SA ja genau sagen wir ach wir m"ussen ja schon wieder f"unf Tage weg wie w"are es denn bei Ihnen in

der zweiten MaiwocheB zweite Maiwoche nein tut mir leid da mu"s ich in Rothenburg seinA in RothenburgB jaA dann och sehen wir mal Juni erste Woche bin ich in Freiburg und die zweite Woche im JuniB zweite Juniwoche die ist frei aber ich h"atte auch noch nein die zweite Juniwoche ist das einzigsteA das ist das einzigste ja dann w"urden wir das doch gleich ausmachenB ja oder ich h"atte noch den April wie w"are es mit der letzten AprilwocheA letzte Aprilwoche Sie meinen da vom neunundzwanzigsten abB nein ich meine den zweiundzwanzigstenA ah ja oh nein da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nichtB na gut dann Juni

Page 17: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Sinneinheiten durch ProsodieA guten Tag Herr Schenk!B guten Tag Frau Schrade! wie geht es Ihnen?A ja Danke, sehr gut. jetzt haben wir ja Hamburg gut hinter uns gebracht. jetzt m"ussen wir ja nach

Potsdam.B nach Potsdam? ach ja die $O $P $K $S.A ja genau. sagen wir - ach wir m"ussen ja schon wieder f"unf Tage weg! wie w"are es denn bei Ihnen

in der zweiten Maiwoche?B zweite Maiwoche? nein tut mir leid, da mu"s ich in Rothenburg sein!A in Rothenburg ?B ja.A dann - och - sehen wir mal - Juni erste Woche bin ich in Freiburg und die zweite Woche im Juni /B zweite Juniwoche die ist frei! aber ich h"atte auch noch / nein die zweite Juniwoche ist das einzigste!A das ist das einzigste? ja dann w"urden wir das doch gleich ausmachen!B ja oder ich h"atte noch den April! wie w"are es mit der letzten Aprilwoche ?A letzte Aprilwoche? Sie meinen da vom neunundzwanzigsten ab ?B nein ich meine den zweiundzwanzigsten!A ah ja. oh nein! da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nicht !B na gut dann Juni .

Page 18: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Evaluative Aspekte durch ProsodieA guten Tag Herr Schenk!B guten Tag Frau Schrade! wie geht es Ihnen?A ja Danke, sehr gut. jetzt haben wir ja Hamburg gut hinter uns gebracht. jetzt m"ussen wir ja nach

Potsdam.B nach Potsdam? ach ja die $O $P $K $S.A ja genau. sagen wir - ach wir m"ussen ja schon wieder f"unf Tage weg! wie w"are es denn bei Ihnen

in der zweiten Maiwoche?B zweite Maiwoche? nein tut mir leid, da mu"s ich in Rothenburg sein!A in Rothenburg ?B ja.A dann - och - sehen wir mal - Juni erste Woche bin ich in Freiburg und die zweite Woche im Juni /B zweite Juniwoche die ist frei! aber ich h"atte auch noch / nein die zweite Juniwoche ist das einzigste!A das ist das einzigste? ja dann w"urden wir das doch gleich ausmachen!B ja oder ich h"atte noch den April! wie w"are es mit der letzten Aprilwoche ?A letzte Aprilwoche? Sie meinen da vom neunundzwanzigsten ab ?B nein ich meine den zweiundzwanzigsten!A ah ja. oh nein! da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nicht !B na gut dann Juni .

Page 19: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.1 Was ist Spracherkennung?

Zusätzliche neue Ansätze „Rich Transcription“:• Sprecherzuordnung• Sinneinheiten (Punkt, Komma) durch

prosodische Merkmale• Evaluative Aspekte (Emotionen) durch

prosodische Merkmale• ...

Page 20: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.2 Warum ist Spracherkennungschwierig?

• Uni-modal• Sprache ist kontinuierlich, Abbildung ist diskret

– Einzelworterkennung– Isolierte Wörter– Erkennung kontinuierlicher Sprache

• Variabilität– Akustisch (Mikrofon, Situation...)– Lautlich (Betonung, Kontext, Semantik...)– Zwischen SprecherInnen (Sprechstil [Tempo,

Lautstärke, Emotion...], Dialekt, Idiolekt, Geschlecht,Alter...)

Page 21: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.2 Warum ist Spracherkennungschwierig?

Beispiel

Page 22: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.2 Warum ist Spracherkennungschwierig?

• Ambiguität– Homophonie (Rad oder Rat?)– Wortgrenzen: „It isn‘t easy...

• to wreck a nice beach“• to recognize speech“

• Komplexität– Hohe Datenrate des abgetasteten Signals

• 16.000 Werte / Sekunde• 120-150 Wörter / Minute• Ca. 100.000 verschiedene Wörter

Page 23: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.3 Was geht heute schon mitSpracherkennung?

• Kommandosysteme– Radiowecker– Namenswahl im Handy– Nicht-sicherheitsrelevante Funktionen im Auto

(Navigation, Telefon, Klimaanlage...)• Diktiersystem

– Für spezielle Berufsgruppen (Ärzte, Juristen..)– Für kooperative Normalverbraucher

Page 24: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.3 Was geht schon?

• Audio-/Video-Datenbanksuche/-indizierung (z.B.von Rundfunksendungen)

• Schulung– Fremdsprachenerwerb– Bei Sprechstörungen

• Dialogsysteme (oft telefonisch)– „ja“-“nein“, Ziffern, Menüführung– Auskunftssysteme (Kino, Fahrplan)– Buchungssysteme / Telefonbanking

• Militärische Varianten

Page 25: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

1.3 Maschinelle vs menschlicheErkennungsleistung

40 - 67%4%2.000(unbegrenzt)

SpontaneTelefon-

gespräche

Switchboard

6.6%0.4%65.000(unbegrenzt)

GeleseneSätze

NorthAmerican

Business News

7.2%0.9%5.000(unbegrenzt)

GeleseneSätze

Wall StreetJournal

3.6%0.1%1.000GeleseneSätze

ResourceManagement

5%1.6%26GelesenesAlphabet

Buchstaben

FehlerrateMaschine

FehlerrateMensch

VokabularBeschrei-bung

Korpus

[Lippmann 1997]

Page 26: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2 Sprachproduktion

Page 27: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Überblick

2.1 Vokaltrakt2.2 Source-Filter Modell2.3 Phonetische Beschreibung2.4 Was ist ein Laut?

Page 28: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.1 Vokaltrakt

[Clark & Yallop, 1991]

Page 29: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.1 Funktionales Modell desVokaltrakts

[Clark & Yallop, 1991]

Page 30: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.2 Source-Filter Modell

Quelle: Stimmbänderfundamentale Anregungstimmhaft - stimmlos

Filter: VokaltraktUmformung desAnregungssignals Sprach-

signal

Page 31: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.3 Phonetische Beschreibung:Konsonanten

• Phonation: stimmhaft - stimmlosSpezialfall Glottisverschluß [?]:

ver[?]eisen - verreisen

Hinweis: phonetische Symbole nach SAMPA (basierend auf IPA)

• Artikulationsort (s. Vokaltrakt)• Artikulationsart

– Nasalierung: nasal - oral– Öffnungsgrad:

Verschluss - Friktionsenge - friktionslose Enge– Engebildung: zentral - lateral

Page 32: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.3 Lautsystem des Deutschen:Konsonanten

% - rTrill

% - N% - n% - mNasal

% - j% - lApproximant

Rx - %c - %S - Zs - zf - vFrikativ

?k - gt - dp - bPlosiv

GlottalUvularLabio-velar

VelarPalatal(Lamino)

Palatal(Apico)

Post-alveolar

Alveo-lar

DentalLabio-dental

Bi-labial

Page 33: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.3 Phonetische Beschreibung:Vokale

• artikulierender Zungenteil– vorne - mitte - hinten

• Zungenhöhe– geschlossen - halboffen - offen

• Lippenrundung– gerundet - ungerundet

• Dauer– kurz - lang

Page 34: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

Beispiel: Vokalproduktion

Page 35: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.2 Lautsystem des Deutschen:Vokale

i y

a:

e 2

E

a

@

6

u

oO9

I Y U

hintenvorne

tief / offen

hoch /geschlossen

Page 36: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.3 Was ist ein Laut?Phonem• Definition: Ein Phonem ist die kleinste

bedeutungsunterscheidende Einheit

• Ermittlung von Phonemen überMinimalpaarbildung:

train - twain [trEIn] - [twEIn]

• Phoneme sind sprachabhängig

• Phoneme werden realisiert durch Allophone

Page 37: 01 Intro Artikulation - Technische Fakultätbwrede/ASR/01_Intro_Artikulation.pdf · Überblick 1. Sitzung •Organisatorisches –Übungen und Scheinkriterien –Termine –Sprechstunde

2.3 Was ist ein Laut?Allophon

• Definition: Sounds which count as alternative ways of sayinga phoneme [Clark & Yallop 1995:125]

• Allophone befinden sich in komplementärer Distribution:c nach [ E I Y e i y ]x nach [ a a: O U o u ]

• normalerweise unterscheiden sich Allophone jedoch nur durchKoartikulation:

k: in Kuh ist gerundetk: in Katze ist nicht gerundet