67
Wissensrepräsentation für Texte 1 4 Wissensrepräsentation für Texte 4.1 Problemstellung Repräsentation von Textinhalten: Problem: Konzepte aus der Anfrage können im Text auf unterschiedlichste Weise formuliert werden Lösungsansätze semantischer Ansatz: Zuordnung von Deskriptionen zu Texten Dokumentationssprachen Freitextsuche informatischer Ansatz: Textretrieval als Zeichenkettensuche computerlinguistischer Ansatz: i.w. Normalisierung von Wortformen Norbert Fuhr

4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 1

4 Wissensrepräsentation fürTexte

4.1 Problemstellung

Repräsentation von Textinhalten:

Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden

Lösungsansätze

• semantischer Ansatz:Zuordnung von Deskriptionen zu Texten→ Dokumentationssprachen

• Freitextsuche

– informatischer Ansatz:Textretrieval als Zeichenkettensuche

– computerlinguistischer Ansatz:i.w. Normalisierung von Wortformen

Norbert Fuhr

Page 2: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 2

4.2 Dokumentationssprachen

4.2.1 Allgemeine Eigenschaften

formulierungsunabhängige Repräsentation von Textin-haltendurch Verwendung eines speziellen Vokabulars

• Klassifikationen

• Thesauri

• RDF

Norbert Fuhr

Page 3: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 3

4.2.2 Klassifikationen

Strukturierung eines Wissensgebietes nach einem vorge-gebenen formalen Schemaz.B. Dezimalklassifikation: Baum der Ordnung 10

Ein Dokument wird in der Regel einer oder wenigenKlassen zugeordnet(ursprünglich für Bibliotheken entwickelt - ein Buchkann nur an einem Platz stehen!)

Beispiele:

• Web-Kataloge (z.B. Yahoo!)

• Klassifikationen in bestimmten Fachgebie-ten/Anwendungsbereiche:

LCC Library of Congress Classification

DDC Dewey Decimal Classification

UDC Universal Decimal Classification

MSc Mathematics Subject Classification

CCS ACM Computing Classification system

Norbert Fuhr

Page 4: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 4

Eigenschaften von Klassifikationssystemen

Monohierarchie — Polyhierarchie

Steinobstbaum

Kirschbaum Pfirsichbaum

Kernobstbaum

BirnbaumApfelbaum

Obstbaum

Birnbaum

NutzholzbaumObstbaum

Kernobstbaum

Norbert Fuhr

Page 5: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 5

Monodimensionalität — PolydimensionalitätProblem: auf einer Stufe gibt es mehrere Kriterien,nach denen eine weitere Aufteilung in Unterklassenvorgenommen werden kann

Polydimensionalität:

Steinobstbaum

Obstbaum

Kernobstbaum niederstämmiger Obstbaum

hochstämmiger Obstbaum

halbstämmiger Obstbaum

Norbert Fuhr

Page 6: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 6

Aufgelöste Polydimensionalität:

Obstbaum

nach Stammbildungnach Fruchart

Obstbaum

halbst.

niederst.

ObstbaumObstbaum

hochst.

obstbaum

Kern−

obstbaum

Stein−

Norbert Fuhr

Page 7: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 7

Analytische vs. synthetische Klassifikationanalytische Klassifikation: top-down Vorgehensweise(wie oben)

synthetische Klassifikation: bottom-up

1. Erhebung der Merkmale der zu klassifizierendenObjekte und Zusammenstellung im Klassifikations-system

2. Bildung der Klassen durch Kombination der Merk-male

Norbert Fuhr

Page 8: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 8

FacettenklassifikationBeispiel: Facettenklassifikation Obstbäume

Facette Facette Facette

A Fruchtart B Stammart C Erntezeit

A1 Apfel B1 hochstämmig C1 früh

A2 Birne B2 halbstämmig C2 mittel

A3 Kirsche B3 niederstämmig C3 spät

A4 Pfirsisch

A5 Pflaume

A1B3C1 = niederstämmiger Frühapfelbaum

Regeln:

• Facetten müssen disjunkt sein

• monodimensionale Unterteilung innerhalb einerFacette

Norbert Fuhr

Page 9: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te9

Yah

oo!–

mai

nca

tego

ries

Art

s&

Hum

anitie

sLi

tera

ture

,Pho

togr

aphy

...B

usin

ess

&Ec

onom

yB

2B,Fi

nanc

e,Sh

oppi

ng,Jo

bs...

Com

pute

rs&

Inte

rnet

Inte

rnet

,W

WW

,So

ftwar

e,G

ames

...Ed

ucat

ion

Col

lege

and

Uni

vers

ity,K

-12.

..En

tert

ainm

ent

Coo

lLin

ks,M

ovie

s,H

umor

,M

usic

...G

over

nmen

tEle

ctio

ns,M

ilita

ry,La

w,Tax

es...

Hea

lth

Med

icin

e,D

isea

ses,

Dru

gs,Fi

tnes

s...

New

s&

Med

iaFu

llCov

erag

e,N

ewsp

aper

s,T

V...

Rec

reat

ion

&Sp

orts

Spor

ts,Tra

vel,

Aut

os,O

utdo

ors...

Ref

eren

ceLi

brar

ies,

Dic

tion

arie

s,Q

uota

tion

s...

Reg

iona

lCou

ntrie

s,Reg

ions

,U

SSt

ates

...Sc

ienc

eA

nim

als,

Ast

rono

my,

Eng

inee

ring.

..So

cial

Scie

nce

Arc

haeo

logy

,Eco

nom

ics,

Lang

uage

s...

Soci

ety

&Cul

ture

Peo

ple,

Env

ironm

ent,

Rel

igio

n...

Nor

bert

Fuhr

Page 10: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te10

Yah

oo!–

Com

pute

rs&

Inte

rnet

Art

@B

iblio

grap

hies

(6)

Com

mun

icat

ions

and

Net

wor

king

(114

6)Com

pute

rSc

ienc

e@Con

test

s(2

6)Con

vent

ions

and

Con

fere

nces

@Cou

ntrie

s,Cul

ture

s,an

dG

roup

s(3

8)Cyb

ercu

lture

@D

ata

Form

ats

(485

)D

eskt

opCus

tom

izat

ion@

Des

ktop

Pub

lishi

ng(5

3)D

ictio

narie

s(2

4)

Empl

oym

ent@

Ethi

cs(1

8)Gam

es@

Gra

phic

s(3

16)

Har

dwar

e(2

355)

Histo

ry(1

06)

Hum

or@

Indu

stry

Info

rmat

ion@

Inte

rnet

(606

6)M

agaz

ines

@M

obile

Com

putin

g(6

5)M

ultim

edia

(690

)M

usic

@N

ews

and

Med

ia(2

05)

...N

orbe

rtFu

hr

Page 11: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te11

Yah

oo!

•Po

lyhi

erar

chie

•T

iefe

der

Hie

rarc

hie

varii

ert

•D

okum

ente

könn

enbe

liebi

gen

Kla

ssen

zuge

ordn

etwer

den

Nor

bert

Fuhr

Page 12: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 12

ACM Computing Classification SystemUrsprünglich Klassifikation in der Zeitschrift ACMComputing Reviews,wird vielfach als Standard-Klassifikation in der Informatikverwendet.

Elemente:

• general terms: vorgegebene Menge von allgemeinenBegriffen

• classification codes: dreistufige monohierarchischeKlassifikation

• subject headings: vorgegebene Menge von natür-lichsprachlichen Bezeichnungen für jede einzelneKlasse, die diese weiter differenzieren; außerdem alleEigennamen

• free terms: zusätzliche, frei wählbare Stichwörter

Norbert Fuhr

Page 13: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 13

General terms:These apply to any elements of the tree that are relevant

ALGORITHMS MANAGEMENT

DESIGN MEASUREMENT

DOCUMENTATION PERFORMANCE

ECONOMICS RELIABILITY

EXPERIMENTATION SECURITY

HUMAN FACTORS STANDARDIZATION

LANGUAGES THEORY

LEGAL ASPECTS VERIFICATION

Norbert Fuhr

Page 14: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 14

Übersicht über die Hauptklassen

A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX

Norbert Fuhr

Page 15: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 15

H.3 INFORMATION STORAGE AND RETRIEVALH.3.0 GeneralH.3.1 Content Analysis and Indexing

Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses

H.3.2 Information StorageFile organizationRecord classification

H.3.3 Information Search and RetrievalH.3.2 Information Storage

ClusteringQuery formulationRetrieval modelsSearch processSelection process

H.3.4 System and SoftwareCurrent awareness systems(selective dissemination of information-SDI)Information networksQuestion-answering (fact retrieval) systems

H.3.5 Online Information ServicesData bank sharing

H.3.6 Library AutomationLarge text archives

H.3.m MiscellaneousNorbert Fuhr

Page 16: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 16

Eigenschaften der ACM-CCS

• Monohierarchie

• feste Tiefe (vier Ebenen)

– Buchstaben/Ziffern-Code für Ebene 1–3

– “subject heading” auf Ebene 4

• Dokumente können nur der 4. Ebene zugeordnetwerden

Norbert Fuhr

Page 17: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 17

Dezimalklassifikation

Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickelt

Universalklassifikation zur Aufstellung von Buchbestän-den

Weiterentwickelt durch Paul Otlet und Henri Lafontaine(Belgien) zur Universellen Dezimalklassifikation (DK)

Grundelemente der DK

• Hierarchisch gegliederten Klassen (130000)

• Anhängezahlen zur Facettierung

• Sonderzeichen zur Verknüpfung mehrerer DK-Zahlen

Norbert Fuhr

Page 18: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 18

HauptklassenDie DK-Haupttafeln umfassen die Hauptabteilungen:

0 Allgemeines

1 Philosophie

2 Religion, Theologie

3 Sozialwissenschaften, Recht, Verwaltung

4 (zur Zeit nicht belegt)

5 Mathematik, Naturwissenschaften

6 Angewandte Wissenschaften, Medizin, Technik

7 Kunst, Kunstgewerbe, Photographie, Musik,Spiel, Sport

8 Sprachwissenschaft, Philologie, Schöne Litera-tur, Literaturwissenschaft

9 Heimatkunde, Geographie, Biographien, Ge-schichte

Norbert Fuhr

Page 19: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 19

Beispiel für die Untergliederung einer Hauptklasse

Beispiel:

3 Sozialwissenschaften, Recht, Verwaltung

33 Volkswirtschaft

336 Finanzen. Bank- und Geldwesen

336.7 Geldwesen. Bankwesen. Börsenwesen

336.76 Börsenwesen. Geldmarkt. Kapitalmarkt

336.763 Wertpapiere. Effekten

336.763.3 Obligationen. Schuldverschreibungen

336.763.31 Allgemeines

336.763.311 Verzinsliche Schuldbriefe

336.763.311.1 Langfristig verzinsliche Schuldbriefe

Norbert Fuhr

Page 20: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 20

Facettierende ElementeAnhängezahlen: durch spezielle Zeichen eingeleitet

allgemeine Anhängezahlen: Facetten, die überall in derDK verwendet werden dürfenZeichenfolgen/Facetten:

= Sprache

(0...) Form

(...) Ort

(=...) Rassen und Völker

„...“ Zeit

.00 Gesichtspunkt

-05 Person

spezielle Anhängezahlen: nur für bestimmte Klasseninnerhalb der DK erlaubt

Norbert Fuhr

Page 21: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 21

Verknüpfung von DK-Zahlenspezielle Sonderzeichen zur Verknüpfung von DK-Zahlen:

+ Aufzählung mehrerer Sachverhalte

: symmetrische Beziehung zwischen zwei Sachverhal-ten (umkehrbar)

:: asymmetrische Beziehung zwischen zwei Sachver-halten

/ Erstreckungszeichen (zur Zusammenfassung mehre-rer nebeneinanderstehender DK-Zahlen)

’ Zusamenfassungszeichen zur Bildung neuer Sach-verhalte aus der Kombination einzelner DK-Komponenten

Norbert Fuhr

Page 22: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 22

4.2.3 Thesauri

DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begrif-fen mit ihren (natürlichsprachlichen) Bezeichnungen.Merkmale eines Thesaurus:

a) terminologische Kontrolle durch

– Erfassung von Synonymen

– Kennzeichnung von Homonymen und Polysemen

– Festlegung von Vorzugsbenennungen

b) Darstellung von Beziehungen zwischen Begriffen“

Norbert Fuhr

Page 23: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 23

Terminologische KontrolleReduktion von Mehrdeutigkeiten und Unschärfe dernatürlichen Sprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenz-klassen

Arten von Synonymie:

• SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationen

• unterschiedlichen Konnotationen, Sprachstile, Ver-breitungTelefon — FernsprecherPferd — GaulMyopie — Kurzsichtigkeit

• Quasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk

Norbert Fuhr

Page 24: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 24

Im Thesaurus werden darüber hinaus Begriffe mitgeringen / irrelevanten Bedeutungsdifferenzen zu Äqui-valenzklassen zusammengefaßt:

• unterschiedliche SpezifitätSprachwissenschaft — Linguistik

• AntonymeHärte — Weichheit

• zu spezieller UnterbegriffWeizen — Winterweizen

• Gleichsetzung von Verb und Substantiv / Tätigkeitund ErgebnisWohnen — Wohnung

PolysemkontrolleAufteilung von einer (mehrdeutigen) Bezeichnung aufmehrere Äquivalenzklassen

• Homonyme (Bs. Tenor)

• Polyseme (Bs. Bank)

Norbert Fuhr

Page 25: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 25

ZerlegungskontrolleProblem: Wie spezifisch sollen einzelne Begriffe imThesaurus sein?„Donaudampfschiffahrtskapitän“

Nachteile zu spezieller Begriffe:

• Thesaurus zu umfangreich / unübersichtlich

• nur wenige Dokumente zu einer Äquivalenzklasse

UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sach-verhaltes (Postkoordination)Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / StammbaumThesaurusmethode: Kompromiß zwischen beiden Ansät-

zen

Norbert Fuhr

Page 26: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 26

Äquivalenzklasse — DeskriptorTerminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen

Darstellung dieser Äquivalenzklassen:

• Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der Äquivalenz-klasse

• Thesaurus mit Vorzugsbenennung:Auswahl eines Elementes der Äquivalenzklasse zurBenennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennungbetrachtet)

Norbert Fuhr

Page 27: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 27

Beziehungsgefüge des Thesaurus

Äquivalenzrelationzwischen Nicht-Deskriptoren und Deskriptoren

Bezeichnungen:BS Benutze Synonym (use)BF Benutzt für (used for, UF)

Fernsprecher BS TelefonTelefon BF Fernsprecher

Hierarchische Relationzwischen Deskriptoren

Bezeichnungen:UB Unterbegriff (narrower term, NT)OB Oberbegriff (broader term, BT)

Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum

Assoziationsrelationzwischen begriffsverwandten Deskriptoren, symmetrisch

Bezeichnung: VB verwandter Begriff (see also, SEE)

Obstbaum VB ObstObst VB Obstbaum

Norbert Fuhr

Page 28: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 28

Darstellung des Thesaurus

Deskriptor-Einträge

• Begriffsnummer

• Notation / Deskriptor-Klassifikation

• Scope note / Definition

• Synonyme

• Oberbegriffe / Unterbegriffe

• Verwandte Begriffe

• Einführungs-/Streichungsdatum

Norbert Fuhr

Page 29: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 29

Gesamtstruktur des Thesaurus(in gedruckter Form)Hauptteil mit den Deskriptor-Einträgenalphabetisch / systematisch geordnet

zusätzliche Register mit Verweisen auf die Deskriptor-Einträge

• systematisch / alphabetisch (komplementär zumHauptteil)

• Index für Komponenten mehrgliedriger Bezeichnun-genKWIC — keyword in contextKWOC — keyword out of context

Norbert Fuhr

Page 30: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te30

Bei

spie

l:IN

SPEC-T

hesa

urus

Info

rmat

ion

retr

ieva

lU

FCD

-RO

Mse

arch

ing

Dat

aac

cess

Doc

umen

tre

trie

val

Onl

ine

liter

atur

ese

arch

ing

Ret

rieva

l,in

form

atio

nB

TIn

form

atio

nsc

ienc

eN

TQ

uery

form

ulat

ion

Que

rypr

oces

sing

Rel

evan

cefe

edba

ckRT

Bib

liogr

aphi

csy

stem

sIn

form

atio

nan

alys

isIn

form

atio

nst

orag

eQ

uery

lang

uage

s

Que

rypr

oces

sing

UF

Dat

aqu

eryi

ngD

atab

ase

quer

ying

Que

ryop

tim

isat

ion

BT

Info

rmat

ion

retr

ieva

lRT

Dat

abas

em

anag

emen

tsy

stem

sD

atab

ase

theo

ryD

ATA

LOG

Que

ryla

ngua

ges

Que

ryfo

rmul

atio

nU

FSe

arch

stra

tegi

esB

TIn

form

atio

nre

trie

val

Rel

evan

cefe

edba

ckB

TIn

form

atio

nre

trie

val

Nor

bert

Fuhr

Page 31: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 310.0058 Magnetismus (Forts.)Magnetband BF HalleffektVB Magnetbandlaufwerk BF Induktion

OB ElektrodynamikUB Magnetfeld

0,0045 BIK GeophysikMagnetbandgerät BFK ErdmagnetismusBS Magnetbandlaufwerk NE7 BIK Optik

BFK Faraday-Effekt

0. 0046Magnetbandkassette 0.0070NO NE83 MagnetkarteBF Kassette NO NE87BF MB-Kassette BF TelefonkärtchenOB Datenträger OB DatenträgerVB Magnetbandkassettenlaufwerk VB Kartensystem

0.0051 0.0073Magnetbandkassettengerät MagnetkartensystemBS Magnetbandkassettenlaufwerk NE7 NO ECS

OB Kartensystem

0.0050Magnetbandkassettenlaufwerk 0.0074NO NE7 MagnetkartentelefonBF Magnetbandkassettengerät NO GK72BF MB-Kassettengerät BF MakatelOB Datenausgabegrät OB KartentelefonOB DateneingabegerätOB DatenspeichertechnikVB Magnetbandkassette 0 0077

MagnetplatteNO NE82

0.0044 OB DatenspeicherMagnetbandlaufwerk OB DatenträgerNO NE7 VB MagnetplattenlaufwerkBF Magnetbandgerät BIK DatenspeicherOB Bandgerät BFK PlattenspeicherOB DatenausgabegerätOB DateneingabegerätOB Datenspeichertechnik 0.0081VB Magnetband Magnetplattengerät

BS Magnetplattenlaufwerk

0.0059Magnetfeld 0.0079NO WD2 MagnetplattenlaufwerkOB Magnetismus NO NE7

BF MagnetplattengerätOB Datenausgabegerät

0.0060 OB DateneingabegerätMagnetismus OB DatenspeichertechnikNO WD2 VB MagnetplatteBF Barkhausen-EffektBF Ferromagnetismus

Norbert Fuhr

Page 32: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 32

ThesauruspflegeAnpassung des Thesaurus an Veränderungen in derAnwendung notwendig aufgrund von

• Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimediale Syste-me

• Entwicklung der Fachsprache

• Indexierungsverhalten / Indexierungsergebnisse

• Benutzerverhalten

• Rechercheergebnisse

Problem: Überwachung der Konsistenz des Thesaurus

Norbert Fuhr

Page 33: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te33

4.2.

4RD

F

(Res

ourc

eD

escr

iptio

nFr

amew

ork)

vom

W3C

imRah

men

der‘S

eman

ticW

eb’-I

nitia

tive

gefö

rder

teB

esch

reib

ungs

spra

-ch

e

Idee

:aus

druc

ksst

ärke

reBes

chre

ibun

gssp

rach

e

•In

stan

zen

zuK

onze

pten

•be

liebi

geB

ezie

hung

enzw

isch

enIn

stan

zen

ausd

rück

en

•St

atem

ents

der

Art

Subj

ekt-

Prä

dika

t-O

bjek

t

Nor

bert

Fuhr

Page 34: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te34

RD

F:ba

sic

conc

epts

Res

ourc

eob

ject

onth

eW

WW

,e.

g.W

ebpa

ge,d

atab

ase

nam

ing

ofre

sour

ces:

Uni

form

Res

ourc

eId

entifi

er(U

RI)

Lite

ral

spec

ialt

ype

ofre

sour

ce,w

ithst

ring

valu

e,no

expl

icit

URI

Pro

pert

yas

pect

/at

trib

ute

/ch

arac

teris

tics

/re

latio

n

Stat

emen

tre

sour

ce+

nam

edpr

oper

ty+

valu

eof

prop

erty

(sub

ject

,pre

dica

te,o

bjec

t)

Nor

bert

Pisa

visi

ts

Nor

bert

Fuhr

Page 35: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te35

RD

Fex

ampl

e

IR−

Cou

rse

"Int

rodu

ctio

n to

IR"

ISS

DL

isP

artO

f

N.F

uhr

teac

hes

Nam

e

Em

ail

"Nor

bert

Fuh

r"

"fuh

r@cs

.uni

−...

"

title

orga

nize

d−by

M.A

gost

i

"Mar

iste

lla A

gost

i""a

gost

i@...

"

Nam

eE

mai

l

Nor

bert

Fuhr

Page 36: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te36

RD

Fsc

hem

as

sim

ilar

tose

man

ticne

twor

ks/

desc

riptio

nlo

gics

desc

ribes

rela

tions

hips

betw

een

type

sof

reso

urce

san

d/or

prop

ertie

s

•fu

ndam

enta

lcon

cept

s

–rd

fs:R

esou

rce

–rd

f:Pro

pert

y

–rd

fs:C

lass

•sc

hem

ade

finiti

onco

ncep

ts

–rd

f:typ

e

–rd

fs:sub

Cla

ssO

f

–rd

fs:sub

Pro

pert

yOf

–rd

fs:see

Also

–rd

fs:is

Defi

nedB

y

Nor

bert

Fuhr

Page 37: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te37

RD

FS

exam

ple:

reso

urce

hier

arch

y

rdf:

Typ

erd

fs:s

ubC

lass

Of

xyz:

Mot

orV

ehic

le xyz:

Tru

ck

xyz:

Pass

enge

rVeh

icle

xyz:

Van

xyz:

Min

iVan

rdfs

:Cla

ss

rdfs

:Res

ourc

e

Nor

bert

Fuhr

Page 38: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wisse

nsre

präs

enta

tion

für

Tex

te38

RD

FS

exam

ple:

reso

urce

and

prop

erty

hier

arch

ies

rdfs

:Cla

ss

tour

ist−

visi

tbu

sine

ss−

visi

t

Pers

onPl

ace

visi

ts

rdfs

:sub

Cla

ssO

f

busi

ness

−vi

sit

visi

ts

Con

f.−

Loc

.IS

SDL

−T

utor

N. F

uhr

Pisa

busi

ness

−vi

sit

rdfs

:sub

Cla

ssO

f

rdf:

Prop

erty

rdf:

type

rdf:

type

rdf:

typerdf:

type

rdfs

:sub

Prop

erty

Of

rdf:

type

Nor

bert

Fuhr

Page 39: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 39

4.3 Freitextsuche

Voraussetzungen:

• Zerlegung von Texten in Wörter

• (Stopworteliminierung)

• (Satzendeerkennung)

Norbert Fuhr

Page 40: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 40

Probleme bei der Freitextsuche:

• HomographenTenor: Sänger / Ausdrucksweise

• PolysemeBank: Sitzgelegenheit / Geldinstitut

• FlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschrieben

• DerivationsformenFormatierung – Format – formatieren

• Komposita (mehrgliedrige Ausdrücke)Bundeskanzlerwahl – Wahl des Bundeskanzlersinformation retrieval – retrieval of information –information was retrieved

Das Problem der Wortwahl bleibt ungelöst!

Norbert Fuhr

Page 41: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 41

4.3.1 Informatischer Ansatz

Zeichenketten-Operatoren für die Freitextsuche

• TruncationFront-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibe

schreib$$: schreiben, schreibst

#schreiben: schreiben, beschreiben, an-schreiben, verschreiben

$$schreiben: beschreiben, anschreiben

• (Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben

Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von Wörtern zusammenzuführenVorteil: weniger Schreibarbeit als beim explizitenAufzählenNachteil: möglicherweise unerwünschte Wörter dabei

Norbert Fuhr

Page 42: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 42

• Kontextoperatoren zur Suche nach mehrgliedrigenAusdrückeninformation AND retrieval:boolesche Operatoren beziehen sich nur auf dasVorkommen irgendwo im Text!

– genauer Wortabstand ($):retrieval $ information: retrieval of information,retrieval with information loss

– maximaler Wortabstand (#):text # # retrieval: text retrieval, text and factretrieval

– Wortreihenfolge (,):information # , retrieval: information retrieval,retrieval of information

– gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Norbert Fuhr

Page 43: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 43

4.3.2 Computerlinguistischer Ansatz

Arten von Verfahren:

• graphematische Verfahrenauf der Analyse von Buchstabenfolgen basierendeAlgorithmen, hauptsächlich zur Zusammenführungvon Flexions- oder Derivationsformen (Morphologie)

• lexikalische VerfahrenWörterbuch-basierte Verfahren zur Zusammenfüh-rung von Flexions- oder Derivationsformen sowievon mehrgliedrigen Ausdrücken

• syntaktische Verfahrenzur Identifikation von mehrgliedrigen Ausdrücken

Norbert Fuhr

Page 44: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 44

Graphematische Verfahren (für die englische Spra-che)

• GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv

– lexikographische Grundformentsteht durch Abtrennen der Flexionsendungund ggfs. Rekodierungapplies → appl → apply

– formale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit

• StammformreduktionEntfernen der Derivationsendungen, d.h. Zurück-führen auf den Wortstammcomputer, compute, computation, computerization→ comput

Norbert Fuhr

Page 45: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 45

Lexikographische Grundformreduktion(nach Kuhlen 77)

% alle Vokale (einschließlich Y)

∗ alle Konsonanten

/ ,oder’

_ Leerzeichen

→ ,zu’

← ,aus’

¬ ,nicht’

Norbert Fuhr

Page 46: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 46

1) IES → Y

2) ES → 6B wenn ∗O / CH / SH / SS / ZZ /X vorangehen

3) S → 6B wenn ∗ / E / %Y / %O / OA / EAvorangehen

4) S’ → 6BIES’ → YES’ → 6B

5) ’S → 6B’ → 6B

6) ING → 6B wenn ∗∗ / % / X vorausgehenING → E wenn %∗ vorausgehen

7) IED → Y

8) ED → 6B wenn ∗∗ / % / X vorausgehenED → E wenn %∗ vorausgehen

Norbert Fuhr

Page 47: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 47

Regel 1 IES → Y

Beispiele zu 1:

APPLIES → APPLY

IDENTIFIES → IDENTIFY

ACTIVITIES → ACTIVITY

Regel 2 ES → 6B, wenn ∗O / CH / SH / SS / ZZ /

X vorangehen

Beispiele zu 2:

BREACHES → BREACH

PROCESSES → PROCESS

FISHES → FISH

COMPLEXES → COMPLEX

TANGOES → TANGO

BUZZES → BUZZ

Norbert Fuhr

Page 48: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 48

Regel 3 S → 6B, wenn ∗ / E / %Y / %O / OA /

EA vorangehen

Beispiele zu 3:

METHODS → METHOD

HOUSES → HOUSE

BOYS → BOY

RADIOS → RADIO

COCOAS → COCOA

FLEAS → FLEA

Regel 4 S’ → 6B

IES’ → Y

ES’ → 6B

Beispiele zu 4:

MOTHERS’ → MOTHER

LADIES’ → LADY

FLAMINGOES → FLAMINGO

Norbert Fuhr

Page 49: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 49

Regel 5 ’S → 6B

’ → 6B

Beispiele zu 5:

MOTHER’S → MOTHER

CHILDREN’S → CHILDREN

PETRUS’ → PETRUS

Regel 6 ING → 6B, wenn ∗∗ / % / X vorausgehen

ING → E, wenn %∗ vorausgehen

Beispiele zu 6:

DISGUSTING → DISGUST

GOING → GO

MIXING → MIX

LOOSING → LOOSE

RETRIEVING → RETRIEVE

Norbert Fuhr

Page 50: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 50

Regel 7 IED → Y

Beispiel zu 7:

SATISFIED → SATISFY

Regel 8 ED → 6B, wenn ∗∗ / % / X vorausgehen

ED → E, wenn %∗ vorausgehen

Beispiel zu 8:

DISGUSTED → DISGUST

OBEYED → OBEY

MIXED → MIX

BELIEVED → BELIEVE

Norbert Fuhr

Page 51: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 51

Lexikalische Verfahrenbesonders für stark flektierte Sprachen (z.B. deutsch)geeignet

Relationen im Wörterbuch:

• Flexionsform (Vollformen) — zugehörige GrundformHauses - Haus, ging - gehen

• Derivationsform — zugehörige GrundformenLieblosigkeit — lieblos, Berechnung — rechnen

• Komposita — zugehörige DekompositionHaustür — Tür, Armbanduhr — Uhr.

Norbert Fuhr

Page 52: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 52

Syntaktische Verfahren

(zur Identifikation von Komposita)

1. Wortklassenbestimmung

2. Parsing

3. Komposita-Identifikation

4. Head-Modifier-Strukturen

5. Matching

Norbert Fuhr

Page 53: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 53

Wortklassenbestimmung

typische Wortklassen:

AT articleBEZ “is”CONJ conjunctionIN prepositionJJ adjectiveJJR comparative adjectiveMD modal (can, have, may, shall. . . )NN singular or mass nounNNP singular proper nounNNS plural nounPERIOD .:?!PN personal pronounRB adverbRBR comparative adverbTO “to”VB verb, base formVBD verb, past tenseVBG verb, present participle, gerundVBN verb, past participleVBP verb, non 3rd singular presentVBZ verb, 3rd singular presentWDT wh-determiner (what, which)

Norbert Fuhr

Page 54: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 54

Datenquellen für die Wortklassenbestimmung:

• (Vollformen-)Wörterbuch

• graphematische Verfahren(insbesondere für nicht im Wörterbuch enthalteneWörter)

Problem:Wortklassenbestimmung in wenig flektierten Sprachen

The boys play football vs.She saw the new play

→ zusätzliche Berücksichtigung der syntaktischenStruktur (Bigramme, Trigramme) notwendig:

AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN

Norbert Fuhr

Page 55: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 55

Beispiel:Wortklassenbestimmung basierend auf dem Kuhlen-Algorithmus

Nr. Regel Klasse

1 IES → Y NNS/VBP

2 ES → 6B NNS/VBP

3 S → 6B NNS/VBP

4 S’ → 6B NNS

IES’ → Y

ES’ → 6B5 ’S → 6B NN

’ → 6B6 ING → 6B VBG

ING → E

7 IED → Y VBD/VBN/JJ

8 ED → 6B VBD/VBN/JJ

ED → E

Norbert Fuhr

Page 56: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 56

Mikheev 98:Kombination von graphematischem Verfahren undVollformen-WB:(Rückführung unbekannter Wörter auf WB-Einträgemittels graphematischer Verfahren)

Beispielregeln:

Präfix WB-Klassen Wortklassen

re JJ NN VBG JJ NN VBG

ex NN NN

self- NN NN

inter JJ JJ

non JJ JJ

un RB RB

dis JJ JJ

anti- NN JJ

de JJ VBD VBN JJ VBD VBN

in RB RB

Norbert Fuhr

Page 57: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 57

Postfix WB-Klassen Wortklassen

ment NN VB VBP NN

ing NN VB VBP JJ NN VBG

ed NN VB VBP JJ VBD VBN

s NN VB VBP NNS VBZ

ly JJ NN RB RB

ness JJ NN

ship NN NN

able NNVBVBP JJ

s NN NNS

Norbert Fuhr

Page 58: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 58

Greene & Rubin 77:Wortklassenbestimmung mit deterministischem Taggernur 70 % korrekte Zuordungen!

aber:die meisten Wörter kommen in einer bevorzugtenWortklasse vorto flour a panto web the final report

→ seltene Verwendungen ignorieren!Charniak et al. 93: 90 % korrekte Zuordungen!

Verbesserung:statistische Ansätze zur Berücksichtigung der syntakti-schen Struktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen

Norbert Fuhr

Page 59: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 59

Parsing

eine einfache Grammatik:

S → NP VP

NP → AT? JJ* NNS+

→ AT? JJ* NN+

→ NP PP

VP → VB PP

→ VBZ

→ VBZ NP

PP → IN NP

Beispiele:The analysis of 25 indexing algorithms shows consistentretrieval performance.AT NN IN JJ NN NNS VBZ JJ NN NN

A good indexing technique for Web retrieval is manualclassification.AT JJ NN NN IN NNS NNS VBZ JJ NN

Norbert Fuhr

Page 60: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 60

Identifikation von Komposita

nur bestimmte syntaktische Strukturen relevant→ partielles parsing

einfache Muster (ohne Unterscheidung(NN/NNP/NNS):

phrase → NN NN+

→ NN+ IN JJ* NN+

Beispiele:indexing algorithmsretrieval performanceretrieval of Web documentsretrieval of new documents

Norbert Fuhr

Page 61: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 61

Head-Modifier-Strukturen

basierend auf der Transformation der Komposita inhead-modifier-Strukturen:

head: Nomen, das die wesentliche Bedeutung desKompositums ausdrückt:Haustür, Türschloss, information retrieval, indexingalgorithm

modifier: modifiziert/spezialisiert die Bedeutung desHeads

head-Modifier-Strukturen können geschachtelt auftreten→ Darstellung als geschachtelte Listen oder Bäume

((Bundes,Kanzler),Wahl)

(((multimedia,document),retrieval),system)

(((Tür,Schloss), (Enteiser, Spray))

(((Eier,Schalen),(Soll,(Bruch,Stellen))),Verursacher)

Norbert Fuhr

Page 62: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 62

Eierschalensollbruchstellenverursacher

Schalen Soll

Bruch Stellen

Verursacher

Eier

the domain of possible categories of linguistic expressions

possible

domain

linguistic

categories

expressions

Norbert Fuhr

Page 63: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 63

Matching-Prozess

1. Komposita in Head-Modifier-Struktur überführen(Transformationsregeln basierend auf der syn-taktischen Struktur, ggfs. auch mit lexikalischenAngaben)

2. Vergleich: Head- bzw. Modifier-Rolle (bzgl. dergemeinsamen Wurzel) müssen übereinstimmen(einzelnes Nomen = Head)

Beispiel:(((Tür,Schloss), (Enteiser, Spray) wird gematcht von

• (Tür,Schloss)

• (Enteiser,Spray)

• (Tür,Schloss), Enteiser)

aber nicht von

• (Schloss,Tür)

Norbert Fuhr

Page 64: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 64

4.4 Beurteilung der Verfahren zur Re-präsentation von Textinhalten

• Dokumentationssprachen bieten prinzipiell Vorteilegegenüber der Freitextsucheaber: dieser Vorteil ist bislang experimentell nichtbelegt, es gibt sogar gegenteilige Ergebnisse

• Erfahrungen aus TREC:halb-formale Konzepte (wie geographische undDatumsangaben) sind durch Freitextsuche nichtabzudecken

• wissensbasiertes IR:benötigt zunächst große Wissensbasen, die bislangnicht verfügbar sind (CYC-Project, semantic Web)

• syntaktische Verfahren:für Nominalphrasen

• maschinenlesbare Wörterbücher:für Nominalphrasen und zur Disambiguierung

Norbert Fuhr

Page 65: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 65

4.5 Zusammenhang zwischen Modellenund Repräsentationen

4.5.1 Einfache statistische Modelle

Beispiel für computerlinguistischen Ansatz

Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not producedconsistent retrieval performance. The best indexingtechnique for retrieving documents is not known.

Stoppworteliminierung:experiments indexing methods analysis indexingalgorithms produced consistent retrieval performancebest indexing technique retrieving documents known

Stammformreduktion:experiment index method analys index algorithm producconsistent retriev perform best index techni retrievdocument

Norbert Fuhr

Page 66: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 66

„semantische“ Sicht:

• Multimenge von Terms

• Formen des Vorkommens(Ort, Sicherheit)

Modell:

• Abbildung auf Attribute

• Semantik durch Statistik!

Norbert Fuhr

Page 67: 4 Wissensrepräsentation für Texte · 2003-03-07 · Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien) zur Universellen Dezimalklassifikation (DK) Grundelemente der

Wissensrepräsentation für Texte 67

Computerlinguistische Verfahren sind präziser (undbenutzerfreundlicher) als der informatische Ansatzaber:

alle Verfahren sind mit Fehlern behaftet!

Norbert Fuhr