Knowledge Discovery mit Wordnet und Alembic
Workbench
(Julia Faion)
(Markus Reiter)
Überblick
• 2 Tools, die Rahmen des Knowledge Discovery eingesetzt werden können :
• Wordnet, ein erweitertes Lexikon
• Alembic Workbench, eine Toolsammlung zur Wissensextraktion aus unbekannten Texten
Input : unbekannte Texte
Alembic : untestützt
Wissensextraktionaus Texten
Wordnet:lexikalische Datenbank
Output:Mit SGML annotierte
Texte
Wordnet
• Datenbank mit lexikalischen Informationen (englische Sprache)
• entwickelt an der Princeton University – (URL : www.cogsci.princeton.edu/~wn )
• angelehnt an psycholinguistische Theorien des menschlichen Wortgedächntisses
• traditionelle Wörterbücher– Informationen alphabetisch gespeichert– keine Querverweise auf Synonyme, verwandte
Begriffe , ...– Suche sehr zeitaufwendig
Wordnet
Wordnet
– speichert Informationen nach konzeptuellen Gesichtspunkten mit Hilfe sogenannter Synonym Sets
– Beispiel : { tree, plant,@ conifer,~ alder,~ ...}• @ : steht für Hypernym-Relation
( Verallgemeinerung )
• ~ : steht für Hyponym-Relation ( Spezialisierung )
Wordnet
– Datenbank ist in 5 Kategorien eingeteilt : Nomen, Verben, Adjektive, Adverben und Funktionswörter ( nicht implementiert)
– Einteilung beruht auf wissenschaftlicher Untersuchung über Wortassoziationen
Wordnet
– Nomen :• werden in Hierarchien abgespeichert
• wichtige Relation : Hypernymität
– Verben : • 15 Kategorien von Verben
• wichtige Relation : Entailment
• Adjektive : • Unterteilung : deskriptive und relationale Adjektive
• wichtige Relation : Antonymität
• ähnliche deskriptive Adjektive werden in Clustern zusammengefaßt
Wordnet
damp
dried-upsoggy
wet
humid
dry
parched
anhydrous
sere
arid
watery
Cluster
moist
Wordnet
– umfaßt ca. 95600 verschiedene Wortformen, welche in ca. 70100 Bedeutungsklassen (Synonym Sets) gespeichert sind
– bietet bei der Suche ein breites Spektrum an Optionen wie
• Synonyme
• Antonyme
• Hyper-/Hyponyme
• Meronyme/Holonyme
Alembic Workbench
– wird zur Information Extraction (IE) verwendet– entwickelt am MITRE, USA– URL : http://www.mitre.org/technology/alembic-workbench
• Projektübersicht, Download
Alembic Workbench
– Sammlung von Tools zur Verbesserung des „tagging-Prozesses“ von Texten
– tags = Markierungen im Text, die Informationen charakterisieren
– Beispiel : <ENAMEX TYPE=PERSON>Bill Clinton</TYPE>
Alembic Workbench
– Entwicklungsziele :• reichhaltige Möglichkeiten zur Analyse eines
getagten Textes
• Fähigkeit, schnell Hypothesen zu entwickeln, wie man Tag-Informationen aus dem Text gewinnen kann
• Möglichkeit zur schnellen Analyse und Bewertung der Leistungsfähigkeit dieser Hypothesen
Alembic Workbench
• Komponenten : – Editor– Process-Text-Utility– Rule Learner– weitere Analyse-Tools
Alembic Workbench
– Ziel : Automatisches Erkennen von relevanten Fakten durch das Programm
– Ansatz : gemeinsames Erarbeiten von neuen Regeln durch Mensch und Maschine
– mixed-initiative Ansatz
Alembic Workbench
Alembic Workbench
– bietet verschiedene Möglichkeiten zur Analyse der getagten Texte
– Phrase Extraction : • extrahiert alle mit Tags markierten Begriffe aus dem
Text
• kann gewünschte Tags farblich markieren
• eingesetzt vor allem zur Fehlersuche und zur Analyse der Tags unabhängig vom Kontext
Alembic Workbench
– Resultate : (basierend auf Untersuchung von MITRE)
– signifikante Steigerung der Produktivität im Vergleich zu einer rein manuellen Bearbeitung mit einem Editor
Alembic Workbench
Ausblick
– Ziele :• Alembic mit einem unbekannten Text trainieren
und Ergebnisse analysieren
• eigenes Textanalyse-Tool, das mit Alembic und Wordnet zusammenarbeitet :
• möglicher Ansatz : Alembic extrahiert alle Nomen aus einem gegebenen Text und unser Programm sucht mit Hilfe von Wordnet gemeinsame Oberbegriffe ( Klassierung), z.B. alle Pflanzen und Tiere zu erkennen