Upload
nelly
View
13
Download
0
Embed Size (px)
DESCRIPTION
2 Faktenextraktion: Übersicht. Faktenextraktion - zwischen Information Retrieval und Sprachverstehen - PowerPoint PPT Presentation
Citation preview
hs / fub – Methoden der Sprachverarbeitung – Einführung 1
2 Faktenextraktion: Übersicht2 Faktenextraktion: Übersicht
Faktenextraktion - zwischen Information Retrieval und Sprachverstehen
Message Understanding Conferenc (MUC) Wettbewerb: IR-Fragestellung: "Relevant sind alle Artikel, die eine Wirtschaftsprognose für 2003 abgeben und eine Aussage zum Haushaltsdefizit machen."
NLP-Fragen: "Wie hoch ist das Haushaltsdefizit voraussichtlich in 2003?" Wie lautet die Schätzung für das Wirtschaftswachstum in 2003 ?"
Siehe Tutorial von Appelt, SRI, Tutorial 1999. Wilckes: Information Extraction, TR. (elektronischer Reader)
hs / fub – Methoden der Sprachverarbeitung – Einführung 2
Einschränkungen gegenüber NLPEinschränkungen gegenüber NLP
Nur Teile des Inhalts "relevant"Wie spezifiziert man den?
- z.B. DatenbankschemButtoSProd ( Jahr, Wert), ......,
WachstumProg (Inst, Datum, fürJahr, Wert)
- Faktenmuster
<NP> <VP> Zahl <Proz>
<VP><NP> Zahl <Proz>
Trigger: NP=[Wirtschafts]wachstum VP=[betragen|Prognose ist|...]
Proz=[%|Prozent]
hs / fub – Methoden der Sprachverarbeitung – Einführung 3
Methoden zur RegeldefinitionMethoden zur Regeldefinition
Wie findet man die Extraktionsregeln?
Manuell / intellektuell ("Knowledge Engineering Ansatz") - Wissen über die Anwendung ("Domänen-Wissen")
- Sprachliches Wissen (Grammatik, Wortsemantik..) => Regel-Definition in Handarbeit
Aufwendig! Relativ gute Ergebnisse für eingeschänkte Anwendungsbereiche. Statistische Techniken - Regeln durch Analyse großer Corpora lernen - Überwachtes Lernen (Trainer) nützlich => Aufwand geringer, aber Trainingsdaten?
Statistische Techniken wichtig, s. o.
hs / fub – Methoden der Sprachverarbeitung – Einführung 4
Grobarchitektur Grobarchitektur
Wortzerlegung
Morphologische /
lexikalische Analyse
Parsing
Semantik /
Anwendungskontext
• Typisch für alle Sprach-
verarbeitungssysteme
• Was ist spezifisch
für FE / IE ? Feedback zur Disambiguierung
hs / fub – Methoden der Sprachverarbeitung – Einführung 5
FE und NLPFE und NLP
FE: sehr große Textmengen Effizienz ist ein Thema
Texte nicht notwendig korrekt (grammatisch, Rechtschreibung,..)
Robuste Parsing-TechnikenEndliche Automaten für Parsing
Gegenstandsbereich wichtig Domänenwissen in jeden Verarbeitungsschritt einbeziehen
-> FE – Technologie: Vereinfachungen gegenüber Natural Language Processing. Aber: Unterschiedliche Schulen
hs / fub – Methoden der Sprachverarbeitung – Einführung 6
WortzerlegungWortzerlegung
Trivial ?
Nein! Sprachabhängig, nicht jede Sprache kennt die Auflösung einer Äußerung in Worte.
Aber Englisch, Deutsch.....
Erkennen von Satzendungen? "Einer sog. Abstraktion kommt in der Informatik
große Bedeutung zu."
Dennoch eher einfaches Problem.
hs / fub – Methoden der Sprachverarbeitung – Einführung 7
MorphologieMorphologie
Dictionary look up (Lexikon) mit / ohne FlexionsformenIn machen Sprachen sehr viele Formen (Finnisch: 10000 mögliche Verformen!!)
Part-Of-Speech TaggingSammelbegriff für die Zuweisung von syntaktischen Kategorien (auch: grammatikalische Kategorien statt POST). FE: eher untergeordnete Bedeutung (Appelt), da keine vollständige syntaktische AnalyseAuch: Eigennamen zuordnen "General Electric", "Yesterday Microsoft announced....", "The Redmond Microsoft branch.." )
hs / fub – Methoden der Sprachverarbeitung – Einführung 8
Name TaggerName Tagger
Stastisch: Hidden Markov ModelleAnnahme: Es gibt einen probabilistischen endlichen Automaten, der mit jedem Eingabewort schaltet. Pfad vom Start- zum Endknoten liefert Wahrscheinlichkeit für die Interpretation eines Namens aus verschiedenen Konstituenten (hier). z.B. "John Smith" (Person) , "John Deere" (Firmenname)Lernverfahren anwendbar!
Regelbasiertz.B. Sequenz von Worten, die mit Großbuchstaben beginnen......, sind Eigennamen (im Englischen!).Wenn dem Wort w direkt GmbH | AG | Inc. folgt, handelt es sich um Firmennamen.
hs / fub – Methoden der Sprachverarbeitung – Einführung 9
SyntaxSyntax
"Full parsing" oder "Shallow parsing" ?
"Finite State Grammers" (reguläre Sprache ?!) reicht für Erkennung von einfachen Fakten. Schwierige grammatikalische Konstrukte weglassen oder auflösen (Konjunktion -> 2 Sätze) Fehler haben oft andere Ursachen als falsche syntaktische Zerlegung.
Keine binäre Entscheidung: genauere Kenntnis der syntaktischen Struktur ist nicht per se schädlich. Verhältnis von Aufwand und Nutzen.
hs / fub – Methoden der Sprachverarbeitung – Einführung 10
SemantikSemantik
"Molekularer Ansatz"Finde induktiv Sprachmuster für die relevanten Fakten (Lesen von Texten, markieren, Regeln aufstelle
"<Institut> <rechen | prognostizieren> <Wachstum[..] von <Zahl>"Keine Trennung von sprachlicher Formulierung von Fakten und formaler Repräsentation (z.B. DB-Schema) verspricht hohe Präzision, geringeren Recall
"Atomarer Ansatz" Finde die wichtigen Konstituenten "Institute" "Wachstum" "Prognose" Würde (evtl. !) erkennen: "Die Institute sind sich sicher, dass das Bruttosozialprodukt sich um 2 % erhöhen wird"Ableiten von Fakten aus Konstituenten.
hs / fub – Methoden der Sprachverarbeitung – Einführung 11
ZusammenfassungZusammenfassung
Faktenextraktion einfacher als Textverstehen. .... aber ....
viele Probleme des Textverstehens tauchen auch hier auf.
Statistische Techniken scheinen sinnvoll: Lernen von Mustern Lernen von Eigennamen etc. Grammatik
Nutzen von Metatags (XML etc.?)
AnwendungenVerbesserung von Information Retrieval als wichtige Anwendung. Abfragbare Datenbanken aufbauen: schwierig, aber nützlich.