WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500...

Preview:

Citation preview

WordNetEine elektronische lexikalische Datenbank

Michael Zilske

WordNet enthält

• 95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen)

• in 70100 Bedeutungen• mit kurzen Umschreibungen,

manchmal Beispielsätzen• und jede Menge semantische

Relationen

WordNet enthält nicht

•Aussprache•Beugung•Etymologie•Verwendungsweise•Bilder

Erste Fragen:

• Welche Wörter werden aufgenommen?

• Was ist der Zusammenhang zwischen den Wortbedeutungen?

• Wie können Wörter verwendet werden (syntaktisch)?

Wortarten werden getrennt behandelt

•Substantive•Adjektive•Verben•Adverbien•Partikel (nicht in WordNet enthalten)

Wortform und Wortbedeutung

• Wortform: Lautäußerung oder hingeschriebenes Wort

• Wortbedeutung: Das, was wir damit meinen

• Zwischen Wortformen und Wortbedeutungen besteht eine n:n-Relation

Repräsentation

• einer Wortform: einfach durch sich selbst

• einer Wortbedeutung: durch die Menge der synonymen Wortformen, die sie bezeichnen - das „Synset“

Ein Synset

• Simuliert eine in Sprache ausdrückbare Idee

• ist gegeben durch die Menge der dafür vorhandenen synonymen Wörter

• ist das zentrale Organisations-element von WordNet

Ein Synset

•erhält in WordNet eine kurze Umschreibung („gloss“) und manchmal Beispielsätze

• ist Ausgangs- und Endpunkt für semantische Verweise

Semantische Relationen

•Synonymie•Antonymie•Hyponymie/Hypernymie•Meronymie/Holonymie

Morphologische Relationen

•stehen nicht im Mittelpunkt der Betrachtung

•sondern werden nur als i-Tüpfelchen und nur an der Benutzerschnittstelle behandelt

Substantive

Eine typische DefinitionBaum

eine große, holzige, mehrjährige Pflanze mit ausgeprägtem Stamm

Hypernym(Gattungsbezeichnung)

Hyponymie

• ist eine (Ordnungs-)relation zwischen Wortbedeutungen (Synsets)

• induziert eine semantische Hierarchie der Substantive

• Diese Hierarchie ist ein Vererbungssystem

25 „Unique Beginners“ für Substantive

Eine typische DefinitionBaum

eine große, holzige, mehrjährige Pflanze mit ausgeprägtem Stamm

Eigenheiten

Ein Rotkehlchen

•Eigenschaften: rote Brust, warmblütig, Wirbeltier

•Teile: hat Schnabel, Federn, Flügel

•Funktionen: kann singen, fliegen, Eier legen

Eigenheiten (features)

• sollen notwendige und hinreichende Kriterien sein

• funktionieren gut bei der Organisation des Wörterbuchs

• Aber spielen sie in tatsächlichen Denkprozessen eine ähnliche Rolle?

Das „Tennis-Problem“bat -- (a club used for hitting a ball in various games)net, mesh -- (an open fabric woven together at regular intervals)ball -- (round object that is hit or thrown or kicked in games; "the ball travelled 90 mph on his serve"; "the mayor threw out the first ball")player, participant -- (a person who participates in or is skilled at some game)court -- (a specially marked area within which a game is played; "players had to reserve a court in advance")stroke, shot -- ((sports) the act of swinging or striking at a ball with a club or racket or bat or cue or hand; "it took two strokes to get out of the bunker"; "a good shot require good balance and tempo"; "he left me an almost impossible shot")

Tennis?

IST-EIN ist mehrdeutig

{Huhn} @-> {Vogel} {Huhn} @-> {Nahrung}

Ein Huhn ist ein Vogel, der als Nahrung dienen kann.

taxonomisch funktional

Grundlegende und spezielle Begriffe

{Möbelstück}

{Stuhl}

ist ein

{Thron}ist ein

Meronymie

• ist die „hat ... als Teil“-Relation• ist als einziges der besagten

Eigenheiten in WordNet eingebaut• vererbt sich also auf Hyponyme• ist (einigermaßen) transitiv

3 Spielarten von Meronymie

•ist ein Teil von ..•ist ein Mitglied von ..•ist das Material, aus

dem .. gemacht ist

Antonymie

• ist eine lexikalische Beziehung zwischen Wortformen

• vererbt sich nicht• ist (bei Substantiven) nicht

besonders interessant• wird nur der Vollständigkeit

halber in WordNet behandelt

Anwendung

WordNet gibt es

•im Web•mit Browser für

UNIX/Windows/Mac•als PROLOG-Dateien

Wer benutzt es?

• fast keine Sprachpsychologen und Psycholinguisten

• aber jede Menge Computerlinguisten und Informatiker

• Das war nicht beabsichtig

Zur Faktenextraktion?

• Zur Vervollständigung des per Hand angelegten foreground lexicon

• Dafür muß das Tennis-Problem angegangen werden

• Zum Beispiel, indem die WordNet-Einträge Dewey-Klassifiziert werden

• Die Ontologie muß ohnehin per Hand erstellt werden

• [Cavaglià 1999]

Quellen• Fellbaum, Christiane: Introduction to WordNet,

1993• Miller, George A.: Nouns in WordNet: A Lexical

Inherritance System, 1993• Cavaglià, Gabriela: The Developmenjt of Lexical

Resources for Information Extraction from Text Combining WordNet and Dewey Decimal Classification, 1999

Recommended