Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
WordNetEine elektronische lexikalische Datenbank
Michael Zilske
WordNet enthält
• 95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen)
• in 70100 Bedeutungen• mit kurzen Umschreibungen,
manchmal Beispielsätzen• und jede Menge semantische
Relationen
WordNet enthält nicht
•Aussprache•Beugung•Etymologie•Verwendungsweise•Bilder
Erste Fragen:
• Welche Wörter werden aufgenommen?
• Was ist der Zusammenhang zwischen den Wortbedeutungen?
• Wie können Wörter verwendet werden (syntaktisch)?
Wortarten werden getrennt behandelt
•Substantive•Adjektive•Verben•Adverbien•Partikel (nicht in WordNet enthalten)
Wortform und Wortbedeutung
• Wortform: Lautäußerung oder hingeschriebenes Wort
• Wortbedeutung: Das, was wir damit meinen
• Zwischen Wortformen und Wortbedeutungen besteht eine n:n-Relation
Repräsentation
• einer Wortform: einfach durch sich selbst
• einer Wortbedeutung: durch die Menge der synonymen Wortformen, die sie bezeichnen - das „Synset“
Ein Synset
• Simuliert eine in Sprache ausdrückbare Idee
• ist gegeben durch die Menge der dafür vorhandenen synonymen Wörter
• ist das zentrale Organisations-element von WordNet
Ein Synset
•erhält in WordNet eine kurze Umschreibung („gloss“) und manchmal Beispielsätze
• ist Ausgangs- und Endpunkt für semantische Verweise
Semantische Relationen
•Synonymie•Antonymie•Hyponymie/Hypernymie•Meronymie/Holonymie
Morphologische Relationen
•stehen nicht im Mittelpunkt der Betrachtung
•sondern werden nur als i-Tüpfelchen und nur an der Benutzerschnittstelle behandelt
Substantive
Eine typische DefinitionBaum
eine große, holzige, mehrjährige Pflanze mit ausgeprägtem Stamm
Hypernym(Gattungsbezeichnung)
Hyponymie
• ist eine (Ordnungs-)relation zwischen Wortbedeutungen (Synsets)
• induziert eine semantische Hierarchie der Substantive
• Diese Hierarchie ist ein Vererbungssystem
25 „Unique Beginners“ für Substantive
Eine typische DefinitionBaum
eine große, holzige, mehrjährige Pflanze mit ausgeprägtem Stamm
Eigenheiten
Ein Rotkehlchen
•Eigenschaften: rote Brust, warmblütig, Wirbeltier
•Teile: hat Schnabel, Federn, Flügel
•Funktionen: kann singen, fliegen, Eier legen
Eigenheiten (features)
• sollen notwendige und hinreichende Kriterien sein
• funktionieren gut bei der Organisation des Wörterbuchs
• Aber spielen sie in tatsächlichen Denkprozessen eine ähnliche Rolle?
Das „Tennis-Problem“bat -- (a club used for hitting a ball in various games)net, mesh -- (an open fabric woven together at regular intervals)ball -- (round object that is hit or thrown or kicked in games; "the ball travelled 90 mph on his serve"; "the mayor threw out the first ball")player, participant -- (a person who participates in or is skilled at some game)court -- (a specially marked area within which a game is played; "players had to reserve a court in advance")stroke, shot -- ((sports) the act of swinging or striking at a ball with a club or racket or bat or cue or hand; "it took two strokes to get out of the bunker"; "a good shot require good balance and tempo"; "he left me an almost impossible shot")
Tennis?
IST-EIN ist mehrdeutig
{Huhn} @-> {Vogel} {Huhn} @-> {Nahrung}
Ein Huhn ist ein Vogel, der als Nahrung dienen kann.
taxonomisch funktional
Grundlegende und spezielle Begriffe
{Möbelstück}
{Stuhl}
ist ein
{Thron}ist ein
Meronymie
• ist die „hat ... als Teil“-Relation• ist als einziges der besagten
Eigenheiten in WordNet eingebaut• vererbt sich also auf Hyponyme• ist (einigermaßen) transitiv
3 Spielarten von Meronymie
•ist ein Teil von ..•ist ein Mitglied von ..•ist das Material, aus
dem .. gemacht ist
Antonymie
• ist eine lexikalische Beziehung zwischen Wortformen
• vererbt sich nicht• ist (bei Substantiven) nicht
besonders interessant• wird nur der Vollständigkeit
halber in WordNet behandelt
Anwendung
WordNet gibt es
•im Web•mit Browser für
UNIX/Windows/Mac•als PROLOG-Dateien
Wer benutzt es?
• fast keine Sprachpsychologen und Psycholinguisten
• aber jede Menge Computerlinguisten und Informatiker
• Das war nicht beabsichtig
Zur Faktenextraktion?
• Zur Vervollständigung des per Hand angelegten foreground lexicon
• Dafür muß das Tennis-Problem angegangen werden
• Zum Beispiel, indem die WordNet-Einträge Dewey-Klassifiziert werden
• Die Ontologie muß ohnehin per Hand erstellt werden
• [Cavaglià 1999]
Quellen• Fellbaum, Christiane: Introduction to WordNet,
1993• Miller, George A.: Nouns in WordNet: A Lexical
Inherritance System, 1993• Cavaglià, Gabriela: The Developmenjt of Lexical
Resources for Information Extraction from Text Combining WordNet and Dewey Decimal Classification, 1999