30
H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit Saarbrücken 11.05.2004 Hans G. Tillmann (Einleitung) Florian Schiel et. al. (Arbeitsbericht)

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

Embed Size (px)

Citation preview

Page 1: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 1

BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS)

LT-Summit Saarbrücken

11.05.2004

Hans G. Tillmann (Einleitung)

Florian Schiel et. al. (Arbeitsbericht)

Page 2: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 2

Hans G. Tillmann

Warum man bei der Entwicklung von SLP-Technologien auf phonetisch aufbereitete Sprachressourcen nicht verzichten kann

(Über den wissenschaftlichen Hintergrund und die praktischen Zielsetzungen der Kooperation mit der Industrie)

Page 3: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 3

 

Skizze der wissenschaftlichen Grundlagen

 Um das tatsächliche Funktionieren der gesprochenen Sprache aufdecken zu können, müssen genau vier Zusammenhänge durch die phonetische Forschung theoretisch geklärt werden:

1.      Sprechakt und Äußerung2.      Äußerung und Bedeutung3.      Phonetische Variabilität und kategoriale Konstanz4.      Zwei Zielsetzungen der Kooperation mit der Industrie

Page 4: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 4

1. Sprechakt und Äußerung

(i) Dieser Zusammenhang ist streng: es gibt keinen natürlichen Sprachakt ohne die lautsprachlichen Äußerung eines Sprecher

(ii) An der phonetischen Form der Äußerung lässt sich erkennen, um welche Art von Sprachakt es sich handelt:

    - in welcher Sprache sich ein Sprecher äußert (chinesisch, deutsch, französisch)

    - ob es sich um einen L1- oder L2-Sprecher handelt (wie z.B. gesprochenes Deutsch mit englischem, französischen, chinesischen u.s.w. Akzent)

Page 5: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 5

(1. Sprechakt und Äußerung, cont.)

 - in welcher Sprache sich ein Sprecher äußert (chinesischdeutsch, französisch)

- ob es sich um einen L1- oder L2-Sprecher handelt (wie z.B. gesprochenes Deutsch mit englischem, französischen, chinesischen u.s.w. Akzent)

- ob wir z.B. den angerufenen Sprecher selbst am Telefon haben oder ob wir nur seine Stimme vom Anrufbeantworter hören

- ob laut gerufen, geflüstert, gefragt, befohlen, gebetet, gepredigt, im Gericht ein Urteil oder auf einem wissenschaftlichen Workshop ein Vortrag gehalten wird

- ob es sich z.B. auch um ein typisches Produkt der heutigen Sprachsynthese handelt (in unterschiedlichster Qualität)

Page 6: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 6

(1. Sprechakt und Äußerung, cont.)

(iii) Dieser kategoriale Reichtum ist für das tatsächliche Funktionieren von lautsprachlichen Kommunikationsprozessen auf grundlegende und auf maßgebende Weise relevant

(iv) Der kategoriale Reichtum wird durch die phonetischen Tatsachen zum Ausdruck gebracht, die ein Sprecher schon allein mit seiner lautlichen Äußerung in die Welt setzt

Kurz: Der kategoriale Reichtum der unterschiedlichsten Sprechakttypen bestimmt die extrem große Variabilität in den phonetischen Sprachdaten

Page 7: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 7

2. Äußerung und Bedeutung

(i) Für das tatsächliche Funktionieren von Sprechakten sind die phonetischen Tatsachen, die ein sprechendes Nervensystem an seiner Peripherie durch den Ablauf einzelsprachlich geregelter Sprechbewegungen (auf selbst- und fremdbeobachtbare Weise) präsentiert, zwar absolut notwendig, aber bei weitem nicht hinreichend:

- nicht jede lautliche Äußerung ist ein Sprechakt - die Wahrnehmung der mit jeder konkreten Äußerung

gegebenen regulären phonetischen Tatsachen ist automatisiert

Page 8: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 8

(ii) Um das tatsächliche Funktionieren von Sprechakten wissenschaftlich erklären zu können, muss man das kognitive Bild der Äußerung, das beim Ablauf von lautsprachlichen Kommunikationsprozessen auf der Hirnrinde von Sprechern und Hörern entsteht, auf der semantischen Seite mit dem übrigen kortikal repräsentierten Weltwissen der betreffenden Individuen in Beziehung setzen können

2. Äußerung und Bedeutung

Page 9: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 9

(2. Äußerung und Bedeutung, cont.)

(ii) Rein logisch muss im Bereich der Semantik zwischen zwei grundlegenden Typen von Sprechakten unterschieden werden.

- Im ersten Fall werden Äußerungen autonym produziert (hierbei steht die Äußerung selbst steht im Zentrum der Aufmerksamkeit von Sprecher und Hörer)

- Im zweiten Fall werden die Äußerungen heteronym verwen- det (Sprecher und Hörer transzendieren die wahrgenomme- ne Äußerung in die abstrakten und konkreten Situationen, die mit der Äußerung quasi automatisch beherrscht werden

(iii) Im Hinblick auf die resultierenden phonetischen Sprach-daten ist der hier eingeführte Unterschied gravierend (s.u. 4.)

Page 10: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 10

3. Phonetische Variabilität und kategoriale Konstanz

(i) Der Begriff der lautsprachlichen Äußerung ist mehrdeutig - wir ersetzen ihn durch den Begriff der phonetischen Tatsache (vgl. dazu Tillmann auf der letzten Heidelberger VERBMOBIL-Sitzung)

(ii) Die als Sprachressourcen in die Datenbank aufzuneh-menden phonetischen Tatsachen bestehen aus digitalisierten Zeitfunktionen (Sprachsignalen) mit der symbolisch annotierten Kategorie der wahrgenommen Äußerung

(iii) Der Zusammenhang zwischen Signal und Symbol ist kein analytischer, sondern logisch kontingent, also rein empirisch gegeben

Page 11: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 11

(Phonetische Variabilität und Kategoriale Konstanz,)

(ii) Der Zusammenhang zwischen Signal und Symbol ist kein analytischer, sondern logisch kontingent (also durch empirische Koinzidenz gegeben)

(iii) Für menschliche Nervensysteme erweist sich die empirisch gegebene Zuordnungsrelation zwischen digitalisierbarem Signal und annotierbarer Kategorie als sogar experimentell reproduzierbar

(iv) Auf dieser Basis lässt sich die Zuordnungsrelation durch eine empirisch verifizierbare Zuordnungstheorie explizit machen

Page 12: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 12

Rein wissenschaftlich kommt es darauf an, die lexikalisierten und die prosodischen Formen von Wörtern der deutschen Sprache durch konkret gegebene phonetische Tatsachen als Ressourcen für Industrie und Wissenschaft verfügbar zu machen

Ziel 1: Schrittweise Verbesserung der industriellen Sprach-Technologie

4. Zwei Zielsetzungen der Kooperation mit der Industrie

Page 13: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 13

Ziel 2: Anwendung dieser verbesserten Sprachtechnologie für die theoretische Beherrschbarmachung der phonetischen Variation der prosodischen, kategorial gesteuerten Wortrealisierungen im Deutschen

Hier stehen wir erst am Anfang einer langen Entwicklung. Doch müssen wir hier heute schon, durch das Verfolgen dieser beiden Ziele, die Grundlagen schaffen für die Erfolge der Zukunft.

4. Zwei Zielsetzungen der Kooperation mit der Industrie

Page 14: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 14

[BITS] - BAS Infrastrukturen für Technische Sprachverarbeitung ist eine Infrastrukturmaßnahme zur Schaffung einer wissenschaftlich und ingenieurtechnisch fundierten und allgemein zugänglichen Plattform für Ressourcen gesprochener deutscher Sprache innerhalb des Kompetenznetzwerkes für Sprachtechnologie unter der Federführung von COLLATE.

Projekt-Rahmeninformation

Page 15: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 15

Bayerisches Archiv für Sprachsignale (BAS):

Projekt-Rahmeninformation

BITS:

- Forschung auf dem Sektor der Sprachverarbeitung- Initiative der Ludwig-Maximilians-Universität

- 9 thematisch abgeschlossene Teilprojekte- Laufzeit: 48 Monate (Beginn 4/2002)- BMBF Förderung unter Federführung von COLLATE

Page 16: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 16

TP 1 und 2

• Zielsetzung:

Methodologie zur Produktion von wiederverwendbaren Korpora &

Methodologie zur technischen und inhaltlichen Validierung

• Status: abgeschlossen• Ergebniss: Buch ISBN: 3-8330-0700-1• Ausblick

LREC 2004 Workshop

"Speech Corpus Production and Validation"

Page 17: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 17

TP 3

• Zielsetzung: Entwicklung von Software zur Durchführung von Annotationen dezentral über das Internet

• Status: WebTranscribe ist abgeschlossen und wird auf der LREC 2004 vorgestellt

• Ergebnisse: Public-Domain-Software WebTranscribe(www.bas.uni-muenchen.de/Bas)

Page 18: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 18

Public-Domain-Software: WebTranscribe

Page 19: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 19

TP 4

• Zielsetzung: Neue Methode zur flächendeckenden Erhebung von direkten Aufnahmen durch Client-Software am privaten Rechner

• Status: fertig gestellt, wird auf der LREC 2004 vorgestellt

• Ergebnisse: Public-Domain-Software SpeechRecorder(www.bas.uni-muenchen.de/Bas)

Page 20: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 20

TP 4

Page 21: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 21

TP 5

• Zielsetzung: Revalidierung aller Korpora des BAS-Katalogs nach Ergebnissen aus TP2

• Status: wird bearbeitet• Ergebnisse: Revalidierungsprotokolle publiziert in

BAS-Katalog • Zusatzleistung: IMDI-Metadaten

Page 22: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 22

TP 5

Abgeschlossen:- PhonDat 1 -PD1- PhonDat 2 -PD2- Strange Corpus 1 - SC1- Siemens 100 - SI100- Regional Variants of German J - RVG-J

Noch zu validierende Corpora: 13

Page 23: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 23

TP 6

• Zielsetzung: Automatische Analyse von Sprachkorpora

• Status: wird bearbeitet• Munich AUtomatic Segmentation (MAUS):

Erweiterung auf iteratives Verfahren(LREC 2004 Vortrag)

• Konkrete Anwendung:Automatische Segmentierung des Satzkorpus TP8

Page 24: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 24

TP 7

• Zielsetzung: Bedarfsstudie für Sprachressourcen und technische Sprachanwendungen

• Status: Befragungen (online) abgeschlossen• Erst Fokus-, dann Hauptgruppenbefragung• Publikation in Arbeit

Page 25: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 25

TP 7

Bedarf an Sprachressourcen in 5 bis 15 Jahren:- Korpora mit Fehlern in der Spontansprache (wichtig 30/ unwichtig 1)

- Generationenkorpora für unterschiedliche Lebensalter (23/5)

- Stellenwert von Emotionen (21/9)

- Korpora mit gemischt-sprachlichen Ressourcen (18/3)

- Korpora mit Zweitsprach-Ressourcen (18/6)

- Sprachinhalte für Kinderdatenbank (diverse)

Expertenbefragung: 31 Teilnehmer

Page 26: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 26

TP 8

• Zielsetzung: Frei verfügbare Korpora für Sprachsynthese • Status: wird bearbeitet• Ergebnisse: 4 Sprecher/innen, Diphon + Unit-Selection• Profi-Sprecher nach Auswahlverfahren (45 Kandidaten)

ausgewählt

Page 27: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 27

TP 8

• Pro Sprecher: 2783 Logatome / 1683 Sätze

• Abgeschlossen: Sprecher 2 und 3

• In Bearbeitung: Sprecher 1 und 4

• Manuelle Segmentierung

• Prosodische Annotation

Page 28: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 28

TP 9

• Zielsetzung: Sprache von Jugendlichen • wird an Grundschulen erhoben• zwei Altersklassen: 12-18 und 6-12 Jahre• Inhalte: gelesene Sprache, Spontansprache

(Beschreiben von Bildern/Video-Sequenzen)• Aufnahme unter Verwendung des SpeechRecorders

(TP 4)• Annotation mit Hilfe des Tools aus TP 3

(WebTranscribe)• Status: wird bearbeitet

Page 29: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 29

Firmenberatung Inland: 9

Firmenberatung Ausland: 3

Universitäten/FH Inland: 13

Universitäten Ausland: 5

Präsenz auf SYSTEMS 2002

BITS Service

Page 30: H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS1 BAS: Infrastrukturen für Technische Sprachsignalverarbeitung (BITS) LT-Summit

H.-G- Tillmann & Florian Schiel: Sprachressourcen – Dienstleistungen BITS 30

Herzlichen Dank für Ihre Aufmerksamkeit