27
Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Embed Size (px)

Citation preview

Page 1: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Knowledge Discovery mit Wordnet und Alembic

Workbench

(Julia Faion)

(Markus Reiter)

Page 2: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Überblick

• 2 Tools, die Rahmen des Knowledge Discovery eingesetzt werden können :

• Wordnet, ein erweitertes Lexikon

• Alembic Workbench, eine Toolsammlung zur Wissensextraktion aus unbekannten Texten

Page 3: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Input : unbekannte Texte

Alembic : untestützt

Wissensextraktionaus Texten

Wordnet:lexikalische Datenbank

Output:Mit SGML annotierte

Texte

Page 4: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

• Datenbank mit lexikalischen Informationen (englische Sprache)

• entwickelt an der Princeton University – (URL : www.cogsci.princeton.edu/~wn )

• angelehnt an psycholinguistische Theorien des menschlichen Wortgedächntisses

Page 5: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

• traditionelle Wörterbücher– Informationen alphabetisch gespeichert– keine Querverweise auf Synonyme, verwandte

Begriffe , ...– Suche sehr zeitaufwendig

Wordnet

Page 6: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

– speichert Informationen nach konzeptuellen Gesichtspunkten mit Hilfe sogenannter Synonym Sets

– Beispiel : { tree, plant,@ conifer,~ alder,~ ...}• @ : steht für Hypernym-Relation

( Verallgemeinerung )

• ~ : steht für Hyponym-Relation ( Spezialisierung )

Page 7: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

– Datenbank ist in 5 Kategorien eingeteilt : Nomen, Verben, Adjektive, Adverben und Funktionswörter ( nicht implementiert)

– Einteilung beruht auf wissenschaftlicher Untersuchung über Wortassoziationen

Page 8: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

– Nomen :• werden in Hierarchien abgespeichert

• wichtige Relation : Hypernymität

– Verben : • 15 Kategorien von Verben

• wichtige Relation : Entailment

Page 9: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

• Adjektive : • Unterteilung : deskriptive und relationale Adjektive

• wichtige Relation : Antonymität

• ähnliche deskriptive Adjektive werden in Clustern zusammengefaßt

Wordnet

Page 10: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

damp

dried-upsoggy

wet

humid

dry

parched

anhydrous

sere

arid

watery

Cluster

moist

Page 11: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

– umfaßt ca. 95600 verschiedene Wortformen, welche in ca. 70100 Bedeutungsklassen (Synonym Sets) gespeichert sind

– bietet bei der Suche ein breites Spektrum an Optionen wie

• Synonyme

• Antonyme

• Hyper-/Hyponyme

• Meronyme/Holonyme

Page 12: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 13: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 14: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 15: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– wird zur Information Extraction (IE) verwendet– entwickelt am MITRE, USA– URL : http://www.mitre.org/technology/alembic-workbench

• Projektübersicht, Download

Page 16: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– Sammlung von Tools zur Verbesserung des „tagging-Prozesses“ von Texten

– tags = Markierungen im Text, die Informationen charakterisieren

– Beispiel : <ENAMEX TYPE=PERSON>Bill Clinton</TYPE>

Page 17: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– Entwicklungsziele :• reichhaltige Möglichkeiten zur Analyse eines

getagten Textes

• Fähigkeit, schnell Hypothesen zu entwickeln, wie man Tag-Informationen aus dem Text gewinnen kann

• Möglichkeit zur schnellen Analyse und Bewertung der Leistungsfähigkeit dieser Hypothesen

Page 18: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

• Komponenten : – Editor– Process-Text-Utility– Rule Learner– weitere Analyse-Tools

Page 19: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– Ziel : Automatisches Erkennen von relevanten Fakten durch das Programm

– Ansatz : gemeinsames Erarbeiten von neuen Regeln durch Mensch und Maschine

– mixed-initiative Ansatz

Page 20: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

Page 21: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 22: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 23: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 24: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– bietet verschiedene Möglichkeiten zur Analyse der getagten Texte

– Phrase Extraction : • extrahiert alle mit Tags markierten Begriffe aus dem

Text

• kann gewünschte Tags farblich markieren

• eingesetzt vor allem zur Fehlersuche und zur Analyse der Tags unabhängig vom Kontext

Page 25: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– Resultate : (basierend auf Untersuchung von MITRE)

– signifikante Steigerung der Produktivität im Vergleich zu einer rein manuellen Bearbeitung mit einem Editor

Page 26: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

Page 27: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Ausblick

– Ziele :• Alembic mit einem unbekannten Text trainieren

und Ergebnisse analysieren

• eigenes Textanalyse-Tool, das mit Alembic und Wordnet zusammenarbeitet :

• möglicher Ansatz : Alembic extrahiert alle Nomen aus einem gegebenen Text und unser Programm sucht mit Hilfe von Wordnet gemeinsame Oberbegriffe ( Klassierung), z.B. alle Pflanzen und Tiere zu erkennen