25
Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 1 / 25 Parsen natürlicher Sprache Wo steht Englisch in der Chomsky-Hierarchie?

Parsen natürlicher Sprache

  • Upload
    thor

  • View
    30

  • Download
    0

Embed Size (px)

DESCRIPTION

Parsen natürlicher Sprache. Wo steht Englisch in der Chomsky-Hierarchie?. Motivation. Informationsextraktion Automatische Übersetzung Vorstufe zum „richtigen“ Turing-Test. Überblick. Kontextfreie Grammatik (CFG). Link- Grammatik. Probabilistische CFG (PCFG). Probabilistische Links. - PowerPoint PPT Presentation

Citation preview

Page 1: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 1 / 25

Parsen natürlicher Sprache

Wo steht Englisch in der Chomsky-Hierarchie?

Page 2: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 2 / 25

Motivation

• Informationsextraktion

• Automatische Übersetzung

• Vorstufe zum „richtigen“ Turing-Test

Page 3: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 3 / 25

ÜberblickKontextfreie

Grammatik (CFG)

ProbabilistischeCFG (PCFG)

ProbabilistischeLinks

Link-Grammatik

Head-lexicalizedPCFG

Collins-Parser

Page 4: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 4 / 25

Metrik für Parserqualität

Penn Treebank:

• Basiert auf Newsartikeln aus Wall-Street-Journal

• Per Hand geparste Sätze mit bis zu >100 Wörtern

• Aufgeteilt in mehrere Sektionen à ca. 2000 Sätze

Page 5: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 5 / 25

ÜberblickKontextfreie

Grammatik (CFG)

ProbabilistischeCFG (PCFG)

ProbabilistischeLinks

Link-Grammatik

Head-lexicalizedPCFG

Collins-Parser

Page 6: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 6 / 25

Kontextfreie Grammatik

• S NP VP• NP DT NN• VP Verb NP

• Verb = be, do, like, talk, ...

• NN = ...

• S = Sentence• NP = Noun Phrase• VP = Verb Phrase• DT = Determiner• NN = Noun

Page 7: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 7 / 25

CFG, Probleme

• Problem 1: Postscript language• Lösung 1: NN NN NN

• Problem 2: Postscript language input file• Lösung 2: ???

Page 8: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 8 / 25

ÜberblickKontextfreie

Grammatik (CFG)

ProbabilistischeCFG (PCFG)

ProbabilistischeLinks

Link-Grammatik

Head-lexicalizedPCFG

Collins-Parser

Page 9: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 9 / 25

Probabilistische CFG

• Grundidee: jede Regel wird mit Wahrscheinlichkeit versehen

• Aufgabe des Parsers: finde den Baum mit maximaler Wahrscheinlichkeit

• Abschätzung der Wahrscheinlichkeiten:Im Trainingssatz angewendete Regeln nachzählen

• Problem: Postscript language input file

Page 10: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 10 / 25

ÜberblickKontextfreie

Grammatik (CFG)

ProbabilistischeCFG (PCFG)

ProbabilistischeLinks

Link-Grammatik

Head-lexicalizedPCFG

Collins-Parser

Page 11: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 11 / 25

Head-lexicalized PCFG

• Grundidee: Für jede Regel wird ein Element (lexical head) ausgezeichnet

• S NP VPNP DT NNVP Verb NP

Page 12: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 12 / 25

Head-lexicalized PCFG

S / is

NN / example

DT / this

NP / tree VP / is

NN / tree Verb / is NP / example

DT / an

This tree is an example

Page 13: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 13 / 25

HPCGF, Probabilismus

Wahrscheinlichkeiten:P(category(root(T)))P(head(root(T))|category(root(T)))P(head(n)|category(n),category(parent(n)), head(parent(n))P(<word(n)>|cat(n), head(n))

Erste Wahrscheinlichkeitsabschätzung:In Trainingsdaten Häufigkeiten nachzählen

Page 14: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 14 / 25

HPCFG, Sparse Data Problem

• Abschätzung z. B. durchUnabhängigkeitsannahmen:Z.B.P(<word>|cat(n), head(n)) =P(<word>)/P(cat(n),head(n))

• Es gibt auch andere Verfahren• Generell: komplizierte Geschichte

Page 15: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 15 / 25

ÜberblickKontextfreie

Grammatik (CFG)

ProbabilistischeCFG (PCFG)

ProbabilistischeLinks

Link-Grammatik

Head-lexicalizedPCFG

Collins-Parser

Page 16: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 16 / 25

Link-Grammatik

Page 17: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 17 / 25

Link-Grammatik

Der Satz ist geparst, wenn es keine freien Links mehr gibt:

Page 18: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 18 / 25

ÜberblickKontextfreie

Grammatik (CFG)

ProbabilistischeCFG (PCFG)

ProbabilistischeLinks

Link-Grammatik

Head-lexicalizedPCFG

Collins-Parser

Page 19: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 19 / 25

Probabilistische Links (1/2)• Vereinfachung:

– Reduktion auf basis-NPs– Beschränkung von Links auf reduzierte Sätze

• Weitere Vereinfachungen:– Part-of-Speech Tagging als Preprocessing– Reduktion von basis-NPs auf head words

Page 20: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 20 / 25

Basis-NPs

• Beim Training: Markierung der Zwischenräume als:(NP-)Start, Continuation, End, Between, Null:S This C sentence E is S an C example E .

• Beim Parsen: Einbeziehung der Markierungen ins Wahrscheinlichkeitsmodell

Page 21: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 21 / 25

Probabilistische Links (2/2)

• Wahrscheinlichkeiten:P(ArrowFrom(modifier, head, Relation))

• Wahrscheinlichkeitsabschätzung:Count(<word1, Tag1>, <word2, Tag2>)Count(Relation|<word1, Tag1>, <word2, Tag2>) Daraus lässt sich P(ArrowFrom(...)) ausrechnen

Page 22: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 22 / 25

ÜberblickKontextfreie

Grammatik (CFG)

ProbabilistischeCFG (PCFG)

ProbabilistischeLinks

Link-Grammatik

Head-lexicalizedPCFG

Collins-Parser

Page 23: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 23 / 25

Collins-Parser• Head-lexicalized PCFG• Kompliziertes Wahrscheinlichkeitsmodell:

Wahrscheinlichkeiten für– Grammatikregeln– Links– Distanzen zwischen Wörtern– etc.

Komplizierte Ausrechnung von Einzelwahrscheinlichkeiten

Page 24: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 24 / 25

Parserqualität: TrefferquotenKontextfreie

Grammatik (CFG)

ProbabilistischeCFG (PCFG)

ProbabilistischeLinks

Link-Grammatik

Head-lexicalizedPCFG

Collins-Parser

ca. 70%

ca. 75%

ca. 85%

bis 89%

Page 25: Parsen natürlicher Sprache

Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 25 / 25

Zusammenfassung

• Es werden immer bessere Ergebnisse erzielt. Preis: Modellkomplexität

• Es gibt immer noch keinen Parser mit 100%-Trefferquote

• Portierung für andere Sprachen oft schwierig