Linguistische...

Preview:

Citation preview

Institut für Informatik

Linguistische Informatik

Gerhard Heyer

Universität Leipzig heyer@informatik.uni-leipzig.de

Morphologie

2 Prof. Dr. G. Heyer Modul Linguistische Informatik

1) Klassifikation lern + bar + keit

2) Auflösung von Mehrdeutigkeiten Spiegel-ei, Spiegelei

Stau-becken, Staub-ecken

3) Behandlung von Allomorphen und anderen

Unregelmäßigkeiten

spreche-sprichst-sprach-gesprochen ...

schön-schöner, gut-besser

Probleme der Morphologie

Morphologie

3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Morphem: kleinste bedeutungstragende Einheit

freie Morpheme

z.B. Buch

gebundene Morpheme

z.B.

vor (Präposition, Präfix)

er (Proform, Pl )

Normalisierung

insb.:

Präfixe (z.B. vor)

Suffixe (z.B. +er)

Fugenelemente (z.B. -s-, -en-)

Morpheme

Morphologie

4 Prof. Dr. G. Heyer Modul Linguistische Informatik

1) Flektion

2) Derivation

3) Komposition

Wortarten

offene

(produktiv)

geschlossene

(nicht produktiv)

Verben Nomina Adjektive Artikel Präpositionen Konjunktionen

3 Bereiche

Morphologie

5 Prof. Dr. G. Heyer Modul Linguistische Informatik

Nomina: Deklination

Sekundärkategorien

Kasus (Nom, Gen, Dat, Akk, ...)

Genus (..., fem, neutr.)

Numerus (sg, pl, ...)

Flektionstabelle

Kasus

sg pl

Numerus

Nominativ Haus Häus+er

Dativ Haus+? Häuser

Akkusativ Haus Häuser

Genitiv Haus+es Häus+er

Haus

Häus

(Ablaute)

Nomina

Morphologie

6 Prof. Dr. G. Heyer Modul Linguistische Informatik

Sekundärkategorien

Person (1., 2., 3.)

Tempus (Präs., Prät., ...)

Numerus (sg, pl)

Modus (Indikativ, Konjunktiv, Imperativ, ...)

Aspekt (Abgeschlossenheit, ...)

wichtig für

• Kongruenz

• Rektion (Übereinstimmung im Kasus)

Verben

Morphologie

7 Prof. Dr. G. Heyer Modul Linguistische Informatik

allgemeine Form eines Wortes

(Präfix* (Stamm Suffix? Fugenelement?)+ Suffix*)+

Derivation und Komposition

Lösbarkeitsprobleme

Lösbarkeitsproblem -e

(Flexiv)

Lösbarkeit

(Sekundär-Stamm)

Problem

(Primär-Stamm)

Llösbar

(Sekundär-Stamm

- keit

(Derivativ)

lös-

(Primär-Stamm)

-bar

(Derivativ)

-s

(Fuge)

Morphologie

8 Prof. Dr. G. Heyer Modul Linguistische Informatik

N A V

N

A

V

Derivation und Komposition

Jeder Stamm einer der Grundkategorien N, A oder V kann

durch Derivation in eine abgeleitete Wortform der

Kategorie N, A, bzw. V überführt werden.

Stämme gleicher

Grundkategorie können

zu einer abgeleiteten

Wortform gleicher

Kategorie komponiert

werden.

Morphologie

9 Prof. Dr. G. Heyer Modul Linguistische Informatik

Verb 6.000 156.000 (Faktor 26) A-Formen 4.000 72.000 (Faktor 18) Nomen 20.000 80.000 (Faktor 4) Alle 30.000 308.000

Kategorie Grundform Flektionsformen

N + N Haus + Schuh

Schuh + Haus N! Möglichkeiten?

N + N + N Gäste + Haus + Schuh

Verhältnis Grundform - Flektionsformen

Morphologie

10 Prof. Dr. G. Heyer Modul Linguistische Informatik

SINGULAR PLURAL

Wort Dat Akk Gen FTS

Ort (E)S 1

Verhältnis SES 2

Knabe N N N 3

Mensch EN EN EN 4

Zeitung 5

Buchstabe N N NS 6

Interessante N N 7

Herz EN ENS 8

Ferien 0

Wort NAG Dat FTP

Garten 1

Auto S S 2

Muskel N N 3

Zeitung EN EN 4

Arbeiterin NEN NEN 5

Segel N 6

Tag E EN 7

Verhältnis SE SEN 8

Leib ER ERN 9

Fossil IEN IEN 10

Eisen 0 Erklärungen

FTS = Flexionstyp Singular

FTP = Flexionstyp Plural

NAG = Nominativ/ Genitiv / Akkusativ

DAT = Dativ

Der Nominativ Singular ist stets durch das Null-Morphem () charakterisiert. Bei den Pluralflexionstypen 1, 6, 7, 9 kann Umlaut (vgl. Gärten, Äpfel, Drähte, Wälder) auftreten.

Schott-Flexive (Schott 1978)

Morphologie

11 Prof. Dr. G. Heyer Modul Linguistische Informatik

SINGULAR: PLURAL: Flexive Flexionstyp Flexiv Flexionstyp * 1, 2, 5, 7, 8 * 1, 6 s, es 1 s 2 * ses 2 n 3, 6 n 3, 6, 7 en 4, 7 en 4, 8 * nen 5 * ns 6 e 7 * ens 8 * se 8 * sen 8 er 9 ern 9

ein 10

Bei den mit * bezeichneten Flexiven erübrigt sich nach bisherigen Beobach-tungen eine Prüfung auf Richtigkeit der Reduktion, weil in diesen Fällen keine Fehlerreduktionen auftreten können. Die Effizienz des Reduktionsalgorithmus wird dadurch erhöht, der Ausdruck wesentlich vereinfacht.

Flexionslisten

Morphologie

12 Prof. Dr. G. Heyer Modul Linguistische Informatik

Wort FTS FTP UC WC

Buch 1 9 1 0

Pass 1 7 1 1

Ferien 0 1 0 0

Eisen 1 0 0 0

Thema 1 11 0 0

Themata 11 1 0 0

Kodierungsschema für Wörterbucheinträge

Morphologie

13 Prof. Dr. G. Heyer Modul Linguistische Informatik

1) Vollformenlexikon

Codierung aller Wortformen

+

morphologische Information (z.B. Num, Pers, Tempus, ...)

2) Regelbasierte Ableitung aller Wortformen aus Stammform

Implementierung Flektionsmorphologie

Morphologie

14 Prof. Dr. G. Heyer Modul Linguistische Informatik

(„schlafen“ (N {f aus}{f ein} Vh) schlafen)

• Allomorphe

(„schlaf“ (N {f aus}{f ein} V15h schlafen)

(„schlaef“ (N {f aus}{f ein} V2 schlafen)

(„schlief“ (N {f aus}{f ein} V34 schlafen)

• Wortformen

(schlaf (s1{f aus}{f ein}v) schlafen_pk1)

(schlaefst (s2{f aus}{f ein}v) schlafen_p)

(schlaeft (s3{f aus}{f ein}v) schlafen_p)

(schlafen (p13{f aus}{f ein}v) schlafen_pk1)

(schlaft (p2{f aus}{f ein}v) schlafen_p)

(schlief (s13{f aus}{f ein}v) schlafen_i)

(schliefst (s2{f aus}{f ein}v) schlafen_i)

Beispiel für einen Lexikoneintrag (R. Hausser)

Morphologie

15 Prof. Dr. G. Heyer Modul Linguistische Informatik

1 ..... s ..... 2 ..... c ..... 3 ..... h ..... ..... l ..... w a ä f g f t e e t

Suchtiefe = maximale Wortlänge!

Buchstabenbaum bzw. trie

Morphologie

16 Prof. Dr. G. Heyer Modul Linguistische Informatik

Hintergrund: Transformationsgrammatik

1. Ebene: Lexikon

2. Ebene: Oberfläche

Vermittlung durch morphologische Transformationen

Probleme der Allomorphe und morphologischen Unregelmäßigkeiten

z.B. "move" + "ed" "moveed" ist falsch,

weil richtig "moved“

Regelbasierter Ansatz: 2 Ebenen (Koskeniemmi)

Morphologie

17 Prof. Dr. G. Heyer Modul Linguistische Informatik

LEXICAL FORM move + ed

m o v e + e d LEXICAL TAPE

SURFACE

TAPE

m o v e d

SURFACE FORM moved

m : m

e :

Idee: Verbindung der zwei Ebenen durch Automaten

Morphologie

18 Prof. Dr. G. Heyer Modul Linguistische Informatik

Eingabeband : Lexikon

. . .

Steuereinheit

. . .

Ausgabeband : Oberfläche

Transduktor-Modell

Morphologie

19 Prof. Dr. G. Heyer Modul Linguistische Informatik

A = (I, 0, Q, , 0, F)

RA = I* x 0*

1

3 4

2

e : e

e : e

v : v

e : Ø

+ : Ø

1 2 1 - -

2 2 - - 3

3 2 - 4 -

4 - 1 - -

v : v e : e + : Ø e :Ø

v : v

v : v

Endlicher Automat

Morphologie

20 Prof. Dr. G. Heyer Modul Linguistische Informatik

< rule > : : = < symbol – pair >

< operator >

< left-context > __ < right-context >

< operator >:: =

Lexikonrealisierung

Lexikonbedingung

Äquivalenz

Beispiele: e : v : v __ + :

+ : e {{c | s ( h )} | s | y:i } – s

try + s

t r i e s

Regelnotation

Morphologie

21 Prof. Dr. G. Heyer Modul Linguistische Informatik

Grewendorf, Hamm, Sternefeld, Sprachliches Wissen, Kapitel V

(Morphologie), Suhrkamp stw 695: Frankfurt/M 1993

Gerda Schott, Automatische Deflexion unter Verwendung eines

Minimalwörterbuchs, in: Sprache und Datenverarbeitung 2, 1978,

62-77

Kimmo Koskenniemmi, A General two-level computational model for

word-form recognition and production, in: COLING ´84, S. 178-

181, Stanford 1984

Roland Hausser, Grundlagen der Computerlinguistik, Springer:

Berlin 1998

Weiterführende Literatur

Recommended