2 Faktenextraktion: Übersicht

hs / fub – Methoden der Sprachverarbeitung – Einführung 1

2 Faktenextraktion: Übersicht2 Faktenextraktion: Übersicht

Faktenextraktion - zwischen Information Retrieval und Sprachverstehen

Message Understanding Conferenc (MUC) Wettbewerb: IR-Fragestellung: "Relevant sind alle Artikel, die eine Wirtschaftsprognose für 2003 abgeben und eine Aussage zum Haushaltsdefizit machen."

NLP-Fragen: "Wie hoch ist das Haushaltsdefizit voraussichtlich in 2003?" Wie lautet die Schätzung für das Wirtschaftswachstum in 2003 ?"

Siehe Tutorial von Appelt, SRI, Tutorial 1999. Wilckes: Information Extraction, TR. (elektronischer Reader)


Einschränkungen gegenüber NLPEinschränkungen gegenüber NLP

Nur Teile des Inhalts "relevant"Wie spezifiziert man den?

- z.B. DatenbankschemButtoSProd ( Jahr, Wert), ......,

WachstumProg (Inst, Datum, fürJahr, Wert)

- Faktenmuster

<NP> <VP> Zahl <Proz>

<VP><NP> Zahl <Proz>

Trigger: NP=[Wirtschafts]wachstum VP=[betragen|Prognose ist|...]

Proz=[%|Prozent]


Methoden zur RegeldefinitionMethoden zur Regeldefinition

Wie findet man die Extraktionsregeln?

Manuell / intellektuell ("Knowledge Engineering Ansatz") - Wissen über die Anwendung ("Domänen-Wissen")

- Sprachliches Wissen (Grammatik, Wortsemantik..) => Regel-Definition in Handarbeit

Aufwendig! Relativ gute Ergebnisse für eingeschänkte Anwendungsbereiche. Statistische Techniken - Regeln durch Analyse großer Corpora lernen - Überwachtes Lernen (Trainer) nützlich => Aufwand geringer, aber Trainingsdaten?

Statistische Techniken wichtig, s. o.


Grobarchitektur Grobarchitektur

Wortzerlegung

Morphologische /

lexikalische Analyse

Parsing

Semantik /

Anwendungskontext

• Typisch für alle Sprach-

verarbeitungssysteme

• Was ist spezifisch

für FE / IE ? Feedback zur Disambiguierung


FE und NLPFE und NLP

FE: sehr große Textmengen Effizienz ist ein Thema

Texte nicht notwendig korrekt (grammatisch, Rechtschreibung,..)

Robuste Parsing-TechnikenEndliche Automaten für Parsing

Gegenstandsbereich wichtig Domänenwissen in jeden Verarbeitungsschritt einbeziehen

-> FE – Technologie: Vereinfachungen gegenüber Natural Language Processing. Aber: Unterschiedliche Schulen


WortzerlegungWortzerlegung

Trivial ?

Nein! Sprachabhängig, nicht jede Sprache kennt die Auflösung einer Äußerung in Worte.

Aber Englisch, Deutsch.....

Erkennen von Satzendungen? "Einer sog. Abstraktion kommt in der Informatik

große Bedeutung zu."

Dennoch eher einfaches Problem.


MorphologieMorphologie

Dictionary look up (Lexikon) mit / ohne FlexionsformenIn machen Sprachen sehr viele Formen (Finnisch: 10000 mögliche Verformen!!)

Part-Of-Speech TaggingSammelbegriff für die Zuweisung von syntaktischen Kategorien (auch: grammatikalische Kategorien statt POST). FE: eher untergeordnete Bedeutung (Appelt), da keine vollständige syntaktische AnalyseAuch: Eigennamen zuordnen "General Electric", "Yesterday Microsoft announced....", "The Redmond Microsoft branch.." )


Name TaggerName Tagger

Stastisch: Hidden Markov ModelleAnnahme: Es gibt einen probabilistischen endlichen Automaten, der mit jedem Eingabewort schaltet. Pfad vom Start- zum Endknoten liefert Wahrscheinlichkeit für die Interpretation eines Namens aus verschiedenen Konstituenten (hier). z.B. "John Smith" (Person) , "John Deere" (Firmenname)Lernverfahren anwendbar!

Regelbasiertz.B. Sequenz von Worten, die mit Großbuchstaben beginnen......, sind Eigennamen (im Englischen!).Wenn dem Wort w direkt GmbH | AG | Inc. folgt, handelt es sich um Firmennamen.


SyntaxSyntax

"Full parsing" oder "Shallow parsing" ?

"Finite State Grammers" (reguläre Sprache ?!) reicht für Erkennung von einfachen Fakten. Schwierige grammatikalische Konstrukte weglassen oder auflösen (Konjunktion -> 2 Sätze) Fehler haben oft andere Ursachen als falsche syntaktische Zerlegung.

Keine binäre Entscheidung: genauere Kenntnis der syntaktischen Struktur ist nicht per se schädlich. Verhältnis von Aufwand und Nutzen.


SemantikSemantik

"Molekularer Ansatz"Finde induktiv Sprachmuster für die relevanten Fakten (Lesen von Texten, markieren, Regeln aufstelle

"<Institut> <rechen | prognostizieren> <Wachstum[..] von <Zahl>"Keine Trennung von sprachlicher Formulierung von Fakten und formaler Repräsentation (z.B. DB-Schema) verspricht hohe Präzision, geringeren Recall

"Atomarer Ansatz" Finde die wichtigen Konstituenten "Institute" "Wachstum" "Prognose" Würde (evtl. !) erkennen: "Die Institute sind sich sicher, dass das Bruttosozialprodukt sich um 2 % erhöhen wird"Ableiten von Fakten aus Konstituenten.


ZusammenfassungZusammenfassung

Faktenextraktion einfacher als Textverstehen. .... aber ....

viele Probleme des Textverstehens tauchen auch hier auf.

Statistische Techniken scheinen sinnvoll: Lernen von Mustern Lernen von Eigennamen etc. Grammatik

Nutzen von Metatags (XML etc.?)

AnwendungenVerbesserung von Information Retrieval als wichtige Anwendung. Abfragbare Datenbanken aufbauen: schwierig, aber nützlich.

Documents

2 Faktenextraktion: Übersicht