29
1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

Embed Size (px)

Citation preview

Page 1: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

1

Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?

Kirke Herrmann

Özgür Kurtulmus-Onigkeit

Datum : 24.Jan. 2007

Page 2: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

2

Hauptthemen

LemmatisierungWas ist ein Lemma?Was ist ein Lemmatisierer?

Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode

Allomorphmethode

Probleme Quellen

Page 3: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

3

altgriechisch : “das Herausgenommene”

allgemein in der CL:

normierte Grundform für alle zu einem Wort gehörenden Wortformen

Beispiel:

Hauses und Häuser werden zu Haus lemmatisiert

Was ist ein Lemma?

Page 4: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

4

Was ist Lemmatisierung ?

Rückführung einer Wortform auf ihr Lemma.

Oberflächenform

Die grammatische Wortform (hier: „lief“) hat eine eindeutige

morphologische Zuweisung (hier: Verb 3.Pers Sing)

und wird Oberflächenform genannt.

Eingabe zum Beispiel.: lief

Ausgabe des Lemmatisierers: laufen

Page 5: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

5

Reduktion flektierter und variierter Wortformen auf ihre Lemmata, Grundform, Lexikonseinträge durch Nachschlagen in einem (elektronischen) Wörterbuch

Bsp: gibst geben

In diesem Zusammenhang sind Grundformen:

Unflektierte Simplizia verschiedener Wortarten

Unflektierte Ableitungen und Komposita

Wortbildungsmorpheme

Was ist Lemmatisierung ?

Page 6: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

6

Bemerkung:

Wenn wir in einem Wörterbuch nach einem

Wort suchen, führen wir selbst eine „Mentale

Lemmatisierung“ durch.

Möchte man z. Bsp. in einem Wörterbuch die

spanische Bedeutung für „geht“ nachschlagen,

so schaut man unter dem Eintrag „gehen“ nach

(und beschäftigt sich danach mit der

Konjugation des Wortes).

„geht“ ist hier die Oberflächenform;

„gehen“ das Lemma.

Was ist Lemmatisierung ?

Page 7: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

7

Welche Lexikonarten werden für die Lemmatisierung verwendet?

Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden

Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird.

Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung

Page 8: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

8

Lemmatisierer sind morphologische Analyseprogramme

Grundlage für das Funktionieren solcher Programme ist die Morphologie, d.h. die Regel und Prozesse der Wortbildung.für jedes Element der zu untersuchenden natürlichen Sprache muss eine lexikalische Analyse definiert werden, die zum Zeitpunkt der Wortformerkennung zur Verfügung steht.

Im Lexikon stehen die Lemmata mit ihren Wortklassen (Flexionsparadigmen).

Page 9: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

9

Ein Tagger führt :

1.eine Lemmatisierung durch

2. weist den eingegebenen Wörtern (2) eine Wortart zu

3. bestimmt Kasus, Numerus und Genus.

Ein Lemmatisierer ermittelt nur das Lemma (die Basis) des eingegebenen Wortes.

Jeder Tagger beinhaltet einen Lemmatisierer.

Was ist der Unterschied zwischen einem Tagger und Lemmatisierer ?

Page 10: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

10

Wie wird Lemmatisierung maschinell durchgeführt?

Zum Lemmatisieren braucht man also

1. ein Grundformenlexikon, in dem die Lemmata mit ihrer Flexionsklasse stehen und ein Regelapparat ( meistens Zwei-Ebenen-Morphologie)

2. oder ein Vollformenlexikon (Lexikon grammatischer Wörter)

(natürlich kann man (2) aus (1) erzeugen)

Page 11: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

11

Zwei-Ebenen-Morphologie

Zwei-Ebenen-Morphologie ist eine Theorie zur Beschreibung morphologischer Phänomene von K. Koskenniemi (1983) :

Zwei Ebenen Ausgangsform und OberflächenformRegeln unabhängig voneinanderRegeln können parallel angewendet werdenJede Regel kann in einen Transducer übersetzt werden

Wie wird Lemmatisierung maschinell durchgeführt?

Page 12: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

12

Beispiel: Bildung der Form 2. Sg Präsens vom Verb rasen durch einen Transducer

Ausgangsform: r a s + s t

Oberflächenform: r a s 0 0 t

Wie wird Lemmatisierung maschinell durchgeführt?

Page 13: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

13

Erkennungsalgorithmus: mit Hilfe des Lexikons muss jede unbekannte Wortform automatisch im Hinblick auf Lemmatisierung und Kategorisierung charakterisiert werden.

Kategorisierung dient, um die gegebenen Wortformen hinsichtlich ihrer morphosyntaktischen Eigenschaften zu spezifizieren.

Wie wird Lemmatisierung maschinell durchgeführt?

Page 14: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

14

Wortformmethode

Morphemmethode

Allomorphmethode

Wie wird Lemmatisierung maschinell erstellt?

Page 15: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

15

Wortformmethode

Oberflächenform wird lediglich mit Lexikoneintrag verglichen.

Die Oberflächenform wird nicht segmentiert, sondern ist unanalysiert im Lexikon gespeichert.

Morphosyntaktische Informationen und Basisform sind der flektierten Form fest zugeordnet.

Page 16: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

16

Wortformmethode

Page 17: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

17

Morphemmethode

Oberflächenform wird zuerst in Allomorphe segmentiert

danach können die morphosyntaktischen Eigenschaften

bestimmt werden

Nachteil: Alle möglichen Formen müssen produziert werden

Page 18: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

18

Morphemmethode

Page 19: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

19

Allomorphmethode

Ähnlich Morphemmethode

Unterschied:

• Segmentierte Allomorphe werden zuerst überprüft

• Dann konkateniert

Page 20: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

20

Allomorphmethode

Die Allomorphe werden nicht wie bei der Morphemmethode „blind“ miteinander konkateniert und dann erst morphosyntaktisch kategorisiert.

Vorteil gegenüber Morphemmethode:

Page 21: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

21

Allomorphmethode

Page 22: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

22

Zusammenfassung

Lemmatisierer:

sind morphologische Analyseprogramme, die eine grammatische Wortform auf ihre Basis zurückführen.

Diese Basis bezeichnet man als Lemma.

Die davon abgeleitete Form als Oberflächenform.

Page 23: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

23

Zusammenfassung

Komponenten der Wortformerkennung:

• Lexikon

• Erkennungsalgorithmus

• Kategorisierung

• Lemmatisierung

Page 24: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

24

Lemmatisierung erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung

Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz

Was passiert mit Wortformen, die nicht im Lexikon gefunden werden?

Eigennamen

Komposita im Deutschen

In der Regel keine Derivationsanalyse

Probleme

Page 25: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

25

Probleme

Homographie

Gleiche Flexionsendungen bei mehreren Wortklassen

(-en in laufen, Regen, Tonnen)

Allomorphe

Gleiche Bedeutung aber unterschiedliche Morpheme

morphologische Mehrdeutigkeit

Mehrere Zerlegungsmöglichkeiten

(Be-inhalten vs. Bein-halten)

Page 26: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

26

Das Programm Morphy

Morphy ist ein Programm, welches das passende

Lemma zu einer eingegebenen Oberflächenform liefert.

Morphy beinhaltet ein Morphologiesystem und eine

Taggingkomponente.

Entwickelt wurde Morphy von Wolfgang Lezius im

Rahmen eines Projektes der Paderborner Arbeitsgruppe

Kognitionsforschung

Page 27: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

27

Das Programm Morphy

Page 28: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

28

Die Morphymethode

Page 29: 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

29

Quellen

Anke Lüdeling: Einführung in die Korpuslinguistik, Uni Berlin

www.spinfo.uni-koeln.de

www.ifi.unizh.ch/cl/Glossar/Lemma.html

www.wolfganglezius.de

Klabunde ( et al.) : Computerlinguistik und Sprachtechnologie