8
1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München http://www.bas.uni-muenchen.de/Bas

1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

Embed Size (px)

Citation preview

Page 1: 1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

1Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009

Bayerisches Archiv für Sprachsignale

Florian Schiel & Christoph Draxlerschiel | draxler @bas.uni-muenchen.de

Institut für Phonetik und SprachverarbeitungLudwig-Maximilians-Universität München

http://www.bas.uni-muenchen.de/Bas

Page 2: 1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

2Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009

MotivationBAS Überblick

gegründet 1995 (Hans Tillmann)

Auftrag Bereitstellung und Entwicklung von deutschen Sprach-Ressourcen für Wissenschaft und Technik

Archiv 26 Sprachkorpora3 Lexika5 multimodale Korpora1 Gebärdensprachkorpus

Software SpeechRecorderInternet-basierte Sprachaufnahme (WikiSpeech)Münchner Automatische Segmentierung (MAUS)Münchner Automatische Sprecherverifikation (MASV)Text-to-Phoneme (BALLOON)

ELDA/LDC-Kataloge:85% aller deutschen Sprachkorpora

20% aller deutschen Aussprachelexika

Page 3: 1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

3Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009

MotivationBAS Neueste Korpora

Ph@ttSessionz Sprache JugendlicherAufnahmen über das Internet an 41 Schulen864 Sprecher

Alcohol Language Corpus

Sprache unter Alkoholeinfluss150 Sprecher

SmartWeb multimodale PDA-InteraktionSprache auf Motorrad281 Sprecher

Signum erstes Videokorpus mit deutscher Gebärdensprache25 Gebärder

Page 4: 1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

4Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009

MotivationBAS Vision

Akuter Bedarf: Transnationales Corpus für Deutsch (TCD)

• Vorbilder BNC (Großbritannien), CGN (Belgien/Niederlande)• Schweiz, Österreich, Deutschland, Luxemburg, Italien

Umfang• mindestens 10 Mio Wörter Sprachaufnahmen, davon • 1 Mio Wörter transliteriert/segmentiert• Terminologien/Ontologien für 10 Domänen

Organisation• Konsortium der beteiligten Staaten• öffentlich verfügbar• Finanzbedarf ca. 20 Mio EUR• Dauer 4 Jahre (+ 1 Jahr Planungsphase)

Page 5: 1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

5Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009

MotivationPh@ttSessionz

Sprachaufnahmen über das Internet

• Training von Spracherkennungssystemen• Untersuchung regionaler Variation

• 41 Schulen (Gymnasien) in Deutschland• 90 h Sprachdaten in hoher Qualität

Page 6: 1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

6Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009

MotivationBAS ALC

● Kooperation mit Rechtsmedizin (LMU)

● 150 Sprecher (75f+75m) alkoholisiert/nüchtern

● Atemalkohol- und Blutalkoholtests

● Sprachtypen: gelesen, Monolog, Dialog, Command&Control

● Vision: automatische Detektion im Fahrzeug

Page 7: 1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

7Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009

MotivationBAS SmartWeb

● Realistische Interaktion mit SmartPhone / PDA

● Sprachgesteuerter Web-Zugriff vom fahrenden Motorrad

● Triaden-Kommunikation: Mensch - Mensch - Maschine

● OnFocus / OffFocus durch Gesichtsvideo

Page 8: 1 Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas.uni-muenchen.de

8Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009

MotivationBAS SIGNUM

● Erstes deutsches Gebärdensprachkorpus

● Kooperation mit Universität Aachen

● 25 Gebärder mit 450 Glossen und 780 'Sätzen'

● 1 TByte Videodaten