29
WordNet Eine elektronische lexikalische Datenbank Michael Zilske

WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

WordNetEine elektronische lexikalische Datenbank

Michael Zilske

Page 2: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

WordNet enthält

• 95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen)

• in 70100 Bedeutungen• mit kurzen Umschreibungen,

manchmal Beispielsätzen• und jede Menge semantische

Relationen

Page 3: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

WordNet enthält nicht

•Aussprache•Beugung•Etymologie•Verwendungsweise•Bilder

Page 4: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Erste Fragen:

• Welche Wörter werden aufgenommen?

• Was ist der Zusammenhang zwischen den Wortbedeutungen?

• Wie können Wörter verwendet werden (syntaktisch)?

Page 5: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Wortarten werden getrennt behandelt

•Substantive•Adjektive•Verben•Adverbien•Partikel (nicht in WordNet enthalten)

Page 6: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Wortform und Wortbedeutung

• Wortform: Lautäußerung oder hingeschriebenes Wort

• Wortbedeutung: Das, was wir damit meinen

• Zwischen Wortformen und Wortbedeutungen besteht eine n:n-Relation

Page 7: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Repräsentation

• einer Wortform: einfach durch sich selbst

• einer Wortbedeutung: durch die Menge der synonymen Wortformen, die sie bezeichnen - das „Synset“

Page 8: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Ein Synset

• Simuliert eine in Sprache ausdrückbare Idee

• ist gegeben durch die Menge der dafür vorhandenen synonymen Wörter

• ist das zentrale Organisations-element von WordNet

Page 9: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Ein Synset

•erhält in WordNet eine kurze Umschreibung („gloss“) und manchmal Beispielsätze

• ist Ausgangs- und Endpunkt für semantische Verweise

Page 10: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Semantische Relationen

•Synonymie•Antonymie•Hyponymie/Hypernymie•Meronymie/Holonymie

Page 11: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Morphologische Relationen

•stehen nicht im Mittelpunkt der Betrachtung

•sondern werden nur als i-Tüpfelchen und nur an der Benutzerschnittstelle behandelt

Page 12: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Substantive

Page 13: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Eine typische DefinitionBaum

eine große, holzige, mehrjährige Pflanze mit ausgeprägtem Stamm

Hypernym(Gattungsbezeichnung)

Page 14: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Hyponymie

• ist eine (Ordnungs-)relation zwischen Wortbedeutungen (Synsets)

• induziert eine semantische Hierarchie der Substantive

• Diese Hierarchie ist ein Vererbungssystem

Page 15: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

25 „Unique Beginners“ für Substantive

Page 16: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Eine typische DefinitionBaum

eine große, holzige, mehrjährige Pflanze mit ausgeprägtem Stamm

Eigenheiten

Page 17: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Ein Rotkehlchen

•Eigenschaften: rote Brust, warmblütig, Wirbeltier

•Teile: hat Schnabel, Federn, Flügel

•Funktionen: kann singen, fliegen, Eier legen

Page 18: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Eigenheiten (features)

• sollen notwendige und hinreichende Kriterien sein

• funktionieren gut bei der Organisation des Wörterbuchs

• Aber spielen sie in tatsächlichen Denkprozessen eine ähnliche Rolle?

Page 19: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Das „Tennis-Problem“bat -- (a club used for hitting a ball in various games)net, mesh -- (an open fabric woven together at regular intervals)ball -- (round object that is hit or thrown or kicked in games; "the ball travelled 90 mph on his serve"; "the mayor threw out the first ball")player, participant -- (a person who participates in or is skilled at some game)court -- (a specially marked area within which a game is played; "players had to reserve a court in advance")stroke, shot -- ((sports) the act of swinging or striking at a ball with a club or racket or bat or cue or hand; "it took two strokes to get out of the bunker"; "a good shot require good balance and tempo"; "he left me an almost impossible shot")

Tennis?

Page 20: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

IST-EIN ist mehrdeutig

{Huhn} @-> {Vogel} {Huhn} @-> {Nahrung}

Ein Huhn ist ein Vogel, der als Nahrung dienen kann.

taxonomisch funktional

Page 21: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Grundlegende und spezielle Begriffe

{Möbelstück}

{Stuhl}

ist ein

{Thron}ist ein

Page 22: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Meronymie

• ist die „hat ... als Teil“-Relation• ist als einziges der besagten

Eigenheiten in WordNet eingebaut• vererbt sich also auf Hyponyme• ist (einigermaßen) transitiv

Page 23: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

3 Spielarten von Meronymie

•ist ein Teil von ..•ist ein Mitglied von ..•ist das Material, aus

dem .. gemacht ist

Page 24: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Antonymie

• ist eine lexikalische Beziehung zwischen Wortformen

• vererbt sich nicht• ist (bei Substantiven) nicht

besonders interessant• wird nur der Vollständigkeit

halber in WordNet behandelt

Page 25: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Anwendung

Page 26: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

WordNet gibt es

•im Web•mit Browser für

UNIX/Windows/Mac•als PROLOG-Dateien

Page 27: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Wer benutzt es?

• fast keine Sprachpsychologen und Psycholinguisten

• aber jede Menge Computerlinguisten und Informatiker

• Das war nicht beabsichtig

Page 28: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Zur Faktenextraktion?

• Zur Vervollständigung des per Hand angelegten foreground lexicon

• Dafür muß das Tennis-Problem angegangen werden

• Zum Beispiel, indem die WordNet-Einträge Dewey-Klassifiziert werden

• Die Ontologie muß ohnehin per Hand erstellt werden

• [Cavaglià 1999]

Page 29: WordNet - Freie Universität · 2002-12-18 · WordNet enthält •95600 Wortformen, davon 51500 einfache Wörter und 44100 Kollokationen) •in 70100 Bedeutungen •mit kurzen Umschreibungen,

Quellen• Fellbaum, Christiane: Introduction to WordNet,

1993• Miller, George A.: Nouns in WordNet: A Lexical

Inherritance System, 1993• Cavaglià, Gabriela: The Developmenjt of Lexical

Resources for Information Extraction from Text Combining WordNet and Dewey Decimal Classification, 1999