Transkription in der Sprachsythese und –erkennung SS 2004 Regelgesteuerte automatische...

Preview:

Citation preview

Transkription in der Transkription in der Sprachsythese und –erkennungSprachsythese und –erkennung

SS 2004 SS 2004

Regelgesteuerte automatische Transkription auf der Basis von

Expertenwissen

Referent: Freshta Khairi

GliederungGliederung

1. Einleitung

2. Allgemeines über P-Tra

3. Sprachelemente von P-Tra

4. Sonderzeichen

5. Klassen

6. Operatoren

GliederungGliederung

7. Schreibweise

8. Regelapparat

9. Ausführung

10. Probleme

11. Praktische Anwendung

EinleitungEinleitung- keine direkte Phonem – Graphem – Beziehung- Bestimmung des Lautes erst bei der Betrachtung der Umgebung-Entwicklung von Regelsystemen für verschiedene Sprachen-Diese sind meistens kontextsensitiv und basieren auf dem Ansatz von Chomsky und Halle (1968)

E → A / L_R Eine Symbolkette E (Graphem) geht in eine Symbolkette A (Phonem), wenn die linke Kontextbedingung L und die rechte Kontextbedingung R hinsichtlich E erfüllt sind.

Allgemeines über P-TraAllgemeines über P-Tra

-Programmiersprache zur phonetischen Transkription

-Mit einer Erweiterung durch die Grundelemente der formalen Aussagenlogik

-Strikte Trennung zwischen dem Regelapparat und dem Interpreter

-Zur Formulierung von Regeln für eine computergestützte phonetisch – allophonische Transkription von Schrifttexten

-P-Tra ist kontextsensitiv und somit Berücksichtigung von umgebenden Buchstaben und Allophonen

Sprachelemente von P-TraSprachelemente von P-Tra

-Wortanfang und Wortende stellen die Kontextgrenzen dar-Überprüfung von einem Graphem bzw. einer Graphemsequenz mit Hilfe von logischen Aussagen und die Erstellung einer Transkription-Abarbeitung von links nach rechts Buchstabe für Buchstabe-Eine Menge logischer Aussagen d.h eine Gruppe von Regeln-Filterungsprozess mit großem Einfluss der Hierarchie auf die Entscheidung

Sprachelemente von P-TraSprachelemente von P-Tra

Linke Seite der Regel: Suchstring, bestehend aus einem oder mehreren Graphemen, fakultative Kontextbedingung

Rechte Seite der Regel: das resultierende Transkript

“-(A,O,U)” CH & #, Ä,E,I = Ç

linke Suchstring rechte result.Kontextbed. Kontextbed Transkript

Sprachelemente von P-TraSprachelemente von P-Tra

Jede logische Aussage beansprucht eine eigene Zeile mit Präkontext, Suchstring, Postkontext und Ergebnisstring.

Präkontext: - linksseitige Kontextbedingung - graphematisch / allophonisch - graphematisch steht in (“…“)

Beispiel: “-(A, O, U)“ - allophonisch ([…]) oder (/…/)

Beispiel: [∫l, ∫, h, gr, tr]

Suchstring: graphematischBeispiel: CH

Sprachelemente von P-TraSprachelemente von P-Tra

Postkontext: - rechtsseitige Kontextbedingung - graphematisch - benötigt keine Klammern u.ä.

Beispiel: #, Ä,E,I

Ergebnisstring: - wird von einem Gleichheitszeichen (=) eingeleitet - allophonisch

Beispiel: … = Ç

Sprachelemente von P-TraSprachelemente von P-Tra

Die logischen Aussagen bzw. die Regeln können zu einer Gruppe zusammengefasst werden. Erkannt wird diese Gruppe durch einen Punkt und das dazugehörige Graphem.

Beispiel: .k

Die letzt Regel einer Gruppe ist eine direkte ZuordnungBeispiel: Z= ts oder auch HOTEL = ho’tεl

SonderzeichenSonderzeichen

Doppelkreuz (#): - Im Prä- oder Postkontext bedeutet Wortanfang oder Wortende

- Am Ende des Suchstrings Markierung von Morphemen, insbesondere Präfixen Beispiel: “#“ VIER & # = fi:r

“#“ AUS & -TRAL = ‘aos#

Dollerzeichen ($): - steht als Platzhalter (wildcard) für ein beliebiges Graphem im Prä- oder Postkontext

Leerzeichen: - Zur besseren Gliederung können beliebig vieleverwendet werden

Sternsymbol (*): - folgende Zeile als Kommentar

KlassenKlassen

Zusammenfassung der Einzelgrapheme bzw. –allophone zu einer Klasse

Beispiel: <V5> eine Klasse der Vokale <<K0>> eine Klasse von Konsonanten mit doppeltem

Vorkommen

Definiert wird eine Klasse durch ein (!). Beispiel: !K5 bdg ptk

!K5 b,d,g, p, t, k

OperatorenOperatoren-Disjunktion (logisches ODER) symbolisiert durch ein Komma (,)

-*Beispiel: [r, b, f] Uß = u:s

-Konjunktion (logisches UND) hat kein Symbol*Beispiel: E & (N,R,L) S = ə

-Antivalenz (logisches EXKLUSIV – ODER) symbolisiert durch ein Semikolon (;)

*Beispiel: G & <K0; R;L;N> = k

OperatorenOperatoren-Negation (logisches NICHT) mit den Symbolen (@) und (-)

-@ bei Graphem oder Allophon-(-) bei Graphem- oder Allophonstring bzw. nachfolgendem Klammer- oder Klassenausdruck

* Beispiel: “#“ ERZ & #, E @ U = e:rts

Verschachtelung logisch äquivalenter Aussagen und Verknüpfung dieser (sowohl im Prä- als auch Postkontext)

Beispiel: E & (<K4>, T) (E(N; R; S) #, U (M, N), (H, K) EI) = ə

SchreibweiseSchreibweisePräkontext: Erlaubt ist hier sowohl Groß- als auch Kleinschreibung

Wörter, deren Bedeutung davon abhängig sind, können durch eine geeignete Regel berücksichtigt werden.

Beispiel: WEG = ve:k weg = vεk

Suchstring: Sowohl Groß- als auch Kleinschreibung, wobei Großschreibung alle Arten von Eingabetexten und Kleinschreibung nur Kleingeschriebenes berücksichtigt

Postkontext: Hier ist die Großschreibung obligatorisch

AusführungAusführungInterpreterprogramm: - Übertragung der logischen Aussagen in die

Maschinensprache des PC - sofortige Ausgabe des Transkriptionsergebnisses

Trace – Modus- Darstellung untereinander- rechts neben jedem Allophonstring steht die Regel

AusführungAusführungBeispiel: Demonstrationde /#/ DE (<K5> <K4> <V0>), (STR, SKR, ST, SP, CH, FR, <K0>) <V0) = de

m M = mo O = on N = n st /on, In, εn/ ST & #, IT, RU, RA, RÖ, AN, IG = st r R = r a’tsio:n ATION & #, EN, S = a’tsio:n 

RegelapparatRegelapparat

Ca. 1000 Einzelregeln

Keine systematische Morphemanalyse

Mit Ausnahme von Präfixen, da sichere Auffindung und wichtige Hilfsfunktion bei der Transkription nachfolgender Grapheme sowie Akzentuierung

RegelapparatRegelapparat

Das Prinzip bei der Formulierung der Regeln:

– Man sollte aus der Umgebung des Suchstrings soviel wie möglich berücksichtigen, aber möglichst wenig Kontext.

– Optimierung von Allgemeingültigkeit der Regeln und verkürzte Arbeitszeit

ProblemeProbleme

Fremdwörter– Inwieweit dürfen diese sowie auch Eigennamen in den

Regelapparat aufgenommen werden?

Zusammengesetzte Wörter, da keine Morphemanalyse– Typische Fehlinterpretation bei Fugen- S

Akzetuierung– Bisher nur da, wo die Auflistung des vollständigen

Wortes oder eines geeigneten Wortteils dies erlaubt

Praktische AnwendungPraktische Anwendung

Recommended