Upload
aglaja-rappold
View
108
Download
0
Embed Size (px)
Citation preview
1Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009
Bayerisches Archiv für Sprachsignale
Florian Schiel & Christoph Draxlerschiel | draxler @bas.uni-muenchen.de
Institut für Phonetik und SprachverarbeitungLudwig-Maximilians-Universität München
http://www.bas.uni-muenchen.de/Bas
2Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009
MotivationBAS Überblick
gegründet 1995 (Hans Tillmann)
Auftrag Bereitstellung und Entwicklung von deutschen Sprach-Ressourcen für Wissenschaft und Technik
Archiv 26 Sprachkorpora3 Lexika5 multimodale Korpora1 Gebärdensprachkorpus
Software SpeechRecorderInternet-basierte Sprachaufnahme (WikiSpeech)Münchner Automatische Segmentierung (MAUS)Münchner Automatische Sprecherverifikation (MASV)Text-to-Phoneme (BALLOON)
ELDA/LDC-Kataloge:85% aller deutschen Sprachkorpora
20% aller deutschen Aussprachelexika
3Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009
MotivationBAS Neueste Korpora
Ph@ttSessionz Sprache JugendlicherAufnahmen über das Internet an 41 Schulen864 Sprecher
Alcohol Language Corpus
Sprache unter Alkoholeinfluss150 Sprecher
SmartWeb multimodale PDA-InteraktionSprache auf Motorrad281 Sprecher
Signum erstes Videokorpus mit deutscher Gebärdensprache25 Gebärder
4Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009
MotivationBAS Vision
Akuter Bedarf: Transnationales Corpus für Deutsch (TCD)
• Vorbilder BNC (Großbritannien), CGN (Belgien/Niederlande)• Schweiz, Österreich, Deutschland, Luxemburg, Italien
Umfang• mindestens 10 Mio Wörter Sprachaufnahmen, davon • 1 Mio Wörter transliteriert/segmentiert• Terminologien/Ontologien für 10 Domänen
Organisation• Konsortium der beteiligten Staaten• öffentlich verfügbar• Finanzbedarf ca. 20 Mio EUR• Dauer 4 Jahre (+ 1 Jahr Planungsphase)
5Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009
MotivationPh@ttSessionz
Sprachaufnahmen über das Internet
• Training von Spracherkennungssystemen• Untersuchung regionaler Variation
• 41 Schulen (Gymnasien) in Deutschland• 90 h Sprachdaten in hoher Qualität
6Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009
MotivationBAS ALC
● Kooperation mit Rechtsmedizin (LMU)
● 150 Sprecher (75f+75m) alkoholisiert/nüchtern
● Atemalkohol- und Blutalkoholtests
● Sprachtypen: gelesen, Monolog, Dialog, Command&Control
● Vision: automatische Detektion im Fahrzeug
7Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009
MotivationBAS SmartWeb
● Realistische Interaktion mit SmartPhone / PDA
● Sprachgesteuerter Web-Zugriff vom fahrenden Motorrad
● Triaden-Kommunikation: Mensch - Mensch - Maschine
● OnFocus / OffFocus durch Gesichtsvideo
8Sprachressourcen-Gipfel IDS Mannheim 15.-16. Mai 2009
MotivationBAS SIGNUM
● Erstes deutsches Gebärdensprachkorpus
● Kooperation mit Universität Aachen
● 25 Gebärder mit 450 Glossen und 780 'Sätzen'
● 1 TByte Videodaten