11
hs / fub – Methoden der Sprachverarbeitung – Einführung 1 2 Faktenextraktion: Übersicht 2 Faktenextraktion: Übersicht Faktenextraktion - zwischen Information Retrieval und Sprachverstehen Message Understanding Conferenc (MUC) Wettbewerb: IR-Fragestellung: "Relevant sind alle Artikel, die eine Wirtschaftsprognose für 2003 abgeben und eine Aussage zum Haushaltsdefizit machen." NLP-Fragen: "Wie hoch ist das Haushaltsdefizit voraussichtlich in 2003?" Wie lautet die Schätzung für das Wirtschaftswachstum in 2003 ?" ehe Tutorial von Appelt, SRI, Tutorial 1999. Wilckes: Information Extraction, TR. (elektronischer Reade

2 Faktenextraktion: Übersicht

  • Upload
    nelly

  • View
    13

  • Download
    0

Embed Size (px)

DESCRIPTION

2 Faktenextraktion: Übersicht. Faktenextraktion - zwischen Information Retrieval und Sprachverstehen - PowerPoint PPT Presentation

Citation preview

Page 1: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 1

2 Faktenextraktion: Übersicht2 Faktenextraktion: Übersicht

Faktenextraktion - zwischen Information Retrieval und Sprachverstehen

Message Understanding Conferenc (MUC) Wettbewerb: IR-Fragestellung: "Relevant sind alle Artikel, die eine Wirtschaftsprognose für 2003 abgeben und eine Aussage zum Haushaltsdefizit machen."

NLP-Fragen: "Wie hoch ist das Haushaltsdefizit voraussichtlich in 2003?" Wie lautet die Schätzung für das Wirtschaftswachstum in 2003 ?"

Siehe Tutorial von Appelt, SRI, Tutorial 1999. Wilckes: Information Extraction, TR. (elektronischer Reader)

Page 2: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 2

Einschränkungen gegenüber NLPEinschränkungen gegenüber NLP

Nur Teile des Inhalts "relevant"Wie spezifiziert man den?

- z.B. DatenbankschemButtoSProd ( Jahr, Wert), ......,

WachstumProg (Inst, Datum, fürJahr, Wert)

- Faktenmuster

<NP> <VP> Zahl <Proz>

<VP><NP> Zahl <Proz>

Trigger: NP=[Wirtschafts]wachstum VP=[betragen|Prognose ist|...]

Proz=[%|Prozent]

Page 3: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 3

Methoden zur RegeldefinitionMethoden zur Regeldefinition

Wie findet man die Extraktionsregeln?

Manuell / intellektuell ("Knowledge Engineering Ansatz") - Wissen über die Anwendung ("Domänen-Wissen")

- Sprachliches Wissen (Grammatik, Wortsemantik..) => Regel-Definition in Handarbeit

Aufwendig! Relativ gute Ergebnisse für eingeschänkte Anwendungsbereiche. Statistische Techniken - Regeln durch Analyse großer Corpora lernen - Überwachtes Lernen (Trainer) nützlich => Aufwand geringer, aber Trainingsdaten?

Statistische Techniken wichtig, s. o.

Page 4: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 4

Grobarchitektur Grobarchitektur

Wortzerlegung

Morphologische /

lexikalische Analyse

Parsing

Semantik /

Anwendungskontext

• Typisch für alle Sprach-

verarbeitungssysteme

• Was ist spezifisch

für FE / IE ? Feedback zur Disambiguierung

Page 5: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 5

FE und NLPFE und NLP

FE: sehr große Textmengen Effizienz ist ein Thema

Texte nicht notwendig korrekt (grammatisch, Rechtschreibung,..)

Robuste Parsing-TechnikenEndliche Automaten für Parsing

Gegenstandsbereich wichtig Domänenwissen in jeden Verarbeitungsschritt einbeziehen

-> FE – Technologie: Vereinfachungen gegenüber Natural Language Processing. Aber: Unterschiedliche Schulen

Page 6: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 6

WortzerlegungWortzerlegung

Trivial ?

Nein! Sprachabhängig, nicht jede Sprache kennt die Auflösung einer Äußerung in Worte.

Aber Englisch, Deutsch.....

Erkennen von Satzendungen? "Einer sog. Abstraktion kommt in der Informatik

große Bedeutung zu."

Dennoch eher einfaches Problem.

Page 7: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 7

MorphologieMorphologie

Dictionary look up (Lexikon) mit / ohne FlexionsformenIn machen Sprachen sehr viele Formen (Finnisch: 10000 mögliche Verformen!!)

Part-Of-Speech TaggingSammelbegriff für die Zuweisung von syntaktischen Kategorien (auch: grammatikalische Kategorien statt POST). FE: eher untergeordnete Bedeutung (Appelt), da keine vollständige syntaktische AnalyseAuch: Eigennamen zuordnen "General Electric", "Yesterday Microsoft announced....", "The Redmond Microsoft branch.." )

Page 8: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 8

Name TaggerName Tagger

Stastisch: Hidden Markov ModelleAnnahme: Es gibt einen probabilistischen endlichen Automaten, der mit jedem Eingabewort schaltet. Pfad vom Start- zum Endknoten liefert Wahrscheinlichkeit für die Interpretation eines Namens aus verschiedenen Konstituenten (hier). z.B. "John Smith" (Person) , "John Deere" (Firmenname)Lernverfahren anwendbar!

Regelbasiertz.B. Sequenz von Worten, die mit Großbuchstaben beginnen......, sind Eigennamen (im Englischen!).Wenn dem Wort w direkt GmbH | AG | Inc. folgt, handelt es sich um Firmennamen.

Page 9: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 9

SyntaxSyntax

"Full parsing" oder "Shallow parsing" ?

"Finite State Grammers" (reguläre Sprache ?!) reicht für Erkennung von einfachen Fakten. Schwierige grammatikalische Konstrukte weglassen oder auflösen (Konjunktion -> 2 Sätze) Fehler haben oft andere Ursachen als falsche syntaktische Zerlegung.

Keine binäre Entscheidung: genauere Kenntnis der syntaktischen Struktur ist nicht per se schädlich. Verhältnis von Aufwand und Nutzen.

Page 10: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 10

SemantikSemantik

"Molekularer Ansatz"Finde induktiv Sprachmuster für die relevanten Fakten (Lesen von Texten, markieren, Regeln aufstelle

"<Institut> <rechen | prognostizieren> <Wachstum[..] von <Zahl>"Keine Trennung von sprachlicher Formulierung von Fakten und formaler Repräsentation (z.B. DB-Schema) verspricht hohe Präzision, geringeren Recall

"Atomarer Ansatz" Finde die wichtigen Konstituenten "Institute" "Wachstum" "Prognose" Würde (evtl. !) erkennen: "Die Institute sind sich sicher, dass das Bruttosozialprodukt sich um 2 % erhöhen wird"Ableiten von Fakten aus Konstituenten.

Page 11: 2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 11

ZusammenfassungZusammenfassung

Faktenextraktion einfacher als Textverstehen. .... aber ....

viele Probleme des Textverstehens tauchen auch hier auf.

Statistische Techniken scheinen sinnvoll: Lernen von Mustern Lernen von Eigennamen etc. Grammatik

Nutzen von Metatags (XML etc.?)

AnwendungenVerbesserung von Information Retrieval als wichtige Anwendung. Abfragbare Datenbanken aufbauen: schwierig, aber nützlich.