Transcript
Page 1: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Das Informationsextraktions-

System ANNIE

Anna Mazhayskaya Anna Vinenko09.07.2007

Page 2: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Informationsextraktion

Informationsextraktion versucht, spezifische Informationen aus textuellen Dokumenten zu extrahieren und in datenbankartigen Schemata abzulegen.

Die Information wird dabei gemäß fest vorgegebenen Spezifikationen ausgewählt.1

1 vgl. http://www.uni-trier.de/uni/fb2/ldv/ldv_wiki/index.php/Informationsextraktion

Page 3: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

GATE- General Architecture for Text Engineering ist eine Entwicklung der Sheffield University

(Dept. of Natural Language Processing) enthält eine Klassenbibliothek

(alle Schnittstellen sind in Java realisiert) bietet eine Entwicklungsumgebung mit

graphischer Oberfläche http://gate.ac.uk/

Page 4: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

enthält drei Typen von Komponenten:

LanguageResources (LRs) : Lexika, Korpora und Ontologien

ProcessingResources (PRs): algorithmische Ressourcen wie Parser, Generatoren oder n-Gram-Modellierer

VisualResources (VRs): zur Visualisierung und zum Editieren in GUIs

vgl. GATE User guide, http://gate.ac.uk/sale/tao

GATE

Page 5: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Aufbau derProcessing Resources in GATE

Komponenten der Processing Resources können sein:

JAVA-Klassen (Sentence) Listen (Gazetter) JAPE-Regeln (Semantik Tagger)

Page 6: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

JAPE - Java Annotation Patterns Engine ermöglicht Grammatiken für reguläre

Sprachen in einer systemunabhängigen Spezifikation linke Seite (LHS): Muster rechte Seite (RHS): Aktion

zur Ausführung der JAPE-Regeln erzeugt GATE einen Transduktor

Page 7: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Algorithmen für die JAPE-Regeln

1. Algorithmus: Bildung eines FSM

a) Bau eines NFSM mit Hilfe von LHS und RHS

Abbildung 1: A nondeterministic FSM nach GATE User guide, Appendix B, JAPE: Implementation, http://gate.ac.uk/sale/tao

Page 8: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Algorithmen für die JAPE-Regeln

1

2

n!

b) Abbildung 2: Umwandlung eines NFSM in ein FSM

Page 9: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Algorithmen für die JAPE-Regeln

2. Algorithmus

• bearbeitete Daten als Input

• neue Annotationen als Output

Abbildung 3: An annotation graph nach GATE User guide, Appendix B, JAPE: Implementation, http://gate.ac.uk/sale/tao

Page 10: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

ANNIE: a Nearly-New Information

Extraction System Eine Teilmenge der Komponenten von GATE bildet das

Informationsextraktionssystem ANNIE

Abbildung 4: ANNIE and LaSIE nach GATE User guide, Ch. 8,ANNIE: a Nearly-New Information Extraction System, http://gate.ac.uk/sale/tao

Page 11: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIE

Tokeniser Gazetteer Sentence Splitter POS-Tagger Semantic Tagger Orthographic Coreference Pronominal Coreference

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 12: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIE Tokeniser

Zerlegt den Text in elementare Token wie Zahlen, Interpunktion und Wörter verschiedenen Typs

z.B. Wörter mit Grossbuchstaben unterscheiden sich von den Wörtern mit Kleinbuchstaben

Das Ziel ist, den Leistungsumfang für maximale Effizienz einzuschränken

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 13: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

folgende Tokenarten sind möglich:

• word

• number

• symbol

• punctuation

• SpaceToken

Komponenten von ANNIE Tokeniser

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 14: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIE Regeln für den Tokeniser

jede Regel hat eine linke und eine rechte Seite

der reguläre Ausdruck auf der linken Seite wird mit der Eingabe abgeglichen

die rechte Seite beschreibt die Annotationen, die zum AnnotationSet hinzugefügt werden sollen

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 15: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIE Regeln für den Tokeniser

Beispiel einer Regel für Wörter, die mit einem einzelnen Grossbuchstaben beginnen

"UPPERCASE_LETTER" "LOWERCASE_LETTER"* >Token;orth=upperInitial;kind=word;

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 16: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIEEnglish Tokeniser

passt die Ausgabe des generischen sprachunabhängigen Tokenisers den Erfordernissen des Part-of-Speech-Taggers für Englisch an

Beispiel: don‘t aus drei Token: „don“, „’“, „t“ werden zwei:

„do“ und „n’t“

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 17: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIE Gazetteer

die sog. Gazetteer-Listen sind Text-Dateienmit nur einem Eintrag pro Zeile für Firmen-, Personen-, Ortsnamen u.v.a.m.

auf die Listen wird über eine Index-Datei (lists.def) zugegriffen

aus diesen Listen werden endliche Automaten(zur Erkennung der Listenelemente) kompiliert

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 18: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIE Gazetteer

Die Einträge in der Index-Datei bestehen aus:

dem Listentitel

einem Haupttyp (major type) für die Listeneinträge

einem Nebentyp (minor type)

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 19: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIESentence Splitter

ein Transduktor, der den Text in einzelne Sätze zerlegt

verwendet eine Gazetterliste von Abkürzungen

jeder Splitter ist anwendungs- und spracheunabhängig

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 20: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIEPart-of-Speech-Tagger

Erkennung von Wortarten (Verb, Substantiv, Präposition…)

Verwendet ein Lexikon und ein Set von Regeln, trainiert auf dem Korpus aus dem Wall Street Journal

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 21: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIESemantic Tagger

Beruht auf den Regeln in der JAPE-Sprache

enthält Regeln, die auf den Annotationen aus

den vorangegangenen Phasen arbeiten

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 22: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIEOrthographic Coreference (OrthoMatcher)

fügt Identitätsrelationen hinzu zwischen NEs (named entities), die vom semantischen Tagger bestimmt wurden

benutzt eine Tabelle der Bezeichnungen der gleichen Entitäten in alternative Schreibweisen z. B.: IBM vs. Big Blue, Coca-Cola vs. Coke

verwendet auch eine Liste mit leicht verwechselbaren Namen z. B.: BT Wireless vs. BT Cellnet

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 23: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIEPronominal Coreference

wird in ANNIE nicht automatisch geladen, kann aber als sog. ’Processing Resource’

hinzugefügt werden

besteht aus drei Submodulen:– Modul für Textstücke in Anführungszeichen

(quoted text module)– Modul für sog. pleonastisches ’it’

(pleonastic it module)– Modul für Pronomenauflösung

(pronominal resolution module)

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 24: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIEPronominal Coreference

Das Modul setzt die Annotationen der vorangegangenen Module voraus

dazu gehören:– Token (English Tokenizer)– Sentence (Sentence Splitter)– Split (Sentence Splitter)– Location (NE Transducer, OrthoMatcher)– Person (NE Transducer, OrthoMatcher)– Organization (NE Transducer, OrthoMatcher)

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 25: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIEPronominal Coreference: Modul für Textstücke in Anführungszeichen

Modul identifiziert im Text Fragmente, die in Anführungszeichen stehen

für diese Fragmente gelten im 3. Modul besondere Regeln für die Auflösung solcher Pronomen wie

I, me, my… Das Modul bildet „Quoted Text“-Annotationen

Das Modul ist ein JAPE-Transduktor auf der Basis einer JAPE-Grammatik

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 26: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIEPronominal Coreference

Vorverarbeitung der Textdatei: Bestimme Sätze Bestimme Geschlecht der Personen Listen der Annotationen von

Organisationen, Orten, Personen für jedes Pronomen suche nach den

möglichen Antezedenten und wähle den besten aus

bilde sog. Koreferenzketten (coreference chains)

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 27: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Komponenten von ANNIEPronominal Coreference

Alle Pronomina haben Annotationen vom Typ „Token“ mit den Werten „PRP“ oder „PRP$“ für das Merkmal „category“

Kategorie „PRP“: Possesivpronomen my, your, his, her…

Kategorie „PRP$“: Personalpronomen, Reflexivpronomen

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 28: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Dokumentformate für GATE: Plain Text HTML SGML XML RTF Email PDF Microsoft Word

vgl. GATE User guide, http://gate.ac.uk/sale/tao

Page 29: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Documents: Content plus Annotations plus Features Annotationen sind in

Graphen zusammengefasst, die als „Java sets of Annotation“ modelliert sind.

Annotationen haben Anfangsknoten und Endknoten, ID, Typ and FeatureMap. Nodes haben Pointer auf die Dokumentquelle.

Result of annotation on a single sentence

Tabelle 1: Result of annotation on a single sentence nach GATE User guide, Ch. 6, http://gate.ac.uk/sale/tao

Page 30: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

DEMO

Page 31: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

DEMO

Page 32: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

DEMO

Page 33: Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007

Quellenangaben H.Cunningham, D.Maynard,

K.Bontcheva,V.Tablan, C. Ursu, M.Dimitrov, M.Dowman, N.Aswani, I.Roberts, Y. Li, A.Shafirinc (2001-2006).Developing Language Processing Components with GATE Version 4 (a User Guide) For GATE version 4.0-beta1. The University of Sheffield (April 2007).

http://gate.ac.uk/


Recommended