Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
4. Wissensrepräsentation für Texte
Norbert Fuhr
ProblemstellungRepräsentation von Textinhalten:
Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden
Lösungsansätzesemantischer Ansatz Zuordnung von Deskriptionen zu Texten →
DokumentationssprachenFreitextsuche
informatischer Ansatz: Textretrieval alsZeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen
Allgemeine Eigenschaften
formulierungsunabhängige Repräsentation von Textinhaltendurch Verwendung eines speziellen Vokabulars
I KlassifikationenI ThesauriI RDF
Klassifikationen
Strukturierung eines Wissensgebietes nach einem vorgegebenenformalen Schemaz.B. Dezimalklassifikation: Baum der Ordnung 10
Ein Dokument wird in der Regel einer oder wenigen Klassenzugeordnet(ursprünglich für Bibliotheken entwickelt - ein Buch kann nur aneinem Platz stehen!)
Beispiele für Klassifikationen
I Web-Kataloge (z.B. Yahoo!)I Klassifikationen in bestimmten
Fachgebieten/Anwendungsbereiche:LCC Library of Congress ClassificationDDC Dewey Decimal ClassificationUDC Universal Decimal ClassificationMSc Mathematics Subject ClassificationCCS ACM Computing Classification system
Eigenschaften von KlassifikationssystemenMonohierarchie — Polyhierarchie
Monohierarchie:
Steinobstbaum
Kirschbaum Pfirsichbaum
Kernobstbaum
BirnbaumApfelbaum
Obstbaum
Polyhierarchie:
Birnbaum
NutzholzbaumObstbaum
Kernobstbaum
Monodimensionalität — Polydimensionalität
Problem: auf einer Stufe gibt es mehrere Kriterien, nach denen eineweitere Aufteilung in Unterklassen vorgenommen werden kann
Polydimensionalität
Steinobstbaum
Obstbaum
Kernobstbaum niederstämmiger Obstbaum
hochstämmiger Obstbaum
halbstämmiger Obstbaum
aufgelöstObstbaum
nach Stammbildungnach Fruchart
Obstbaum
halbst.
niederst.
ObstbaumObstbaum
hochst.
obstbaum
Kern−
obstbaum
Stein−
Analytische vs. synthetische Klassifikation
analytische Klassifikation: top-down Vorgehensweise(wie oben)
synthetische Klassifikation: bottom-up1. Erhebung der Merkmale der zu klassifizierenden Objekte und
Zusammenstellung im Klassifikationssystem2. Bildung der Klassen durch Kombination der Merkmale
Facettenklassifikation
Beispiel: Facettenklassifikation Obstbäume
Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochstämmig C1 frühA2 Birne B2 halbstämmig C2 mittelA3 Kirsche B3 niederstämmig C3 spätA4 PfirsischA5 Pflaume
A1B3C1 = niederstämmiger Frühapfelbaum
Regeln:I Facetten müssen disjunkt seinI monodimensionale Unterteilung innerhalb einer Facette
Yahoo! – main categories
Arts & HumanitiesLiterature, Photography...Business & EconomyB2B, Finance, Shopping, Jobs...Computers & InternetInternet, WWW, Software, Ga-mes...EducationCollege and University, K-12...EntertainmentCool Links, Movies, Humor, Mu-sic...GovernmentElections, Military, Law, Taxes...HealthMedicine, Diseases, Drugs, Fit-ness...
News & MediaFull Coverage, Newspapers, TV...Recreation & SportsSports, Travel, Autos, Outdoors...ReferenceLibraries, Dictionaries, Quotati-ons...RegionalCountries, Regions, US States...ScienceAnimals, Astronomy, Engineering...Social ScienceArchaeology, Economics, Langua-ges...Society & CulturePeople, Environment, Religion...
Yahoo! – Computers & Internet
Art@Bibliographies (6)Communications andNetworking (1146)Computer Science@Contests (26)Conventions andConferences@Countries, Cultures, andGroups (38)Cyberculture@Data Formats (485)Desktop Customization@Desktop Publishing (53)Dictionaries (24)
Employment@Ethics (18)Games@Graphics (316)Hardware (2355)History (106)Humor@Industry Information@Internet (6066)Magazines@Mobile Computing (65)Multimedia (690)Music@News and Media (205)...
Yahoo!
I PolyhierarchieI Tiefe der Hierarchie variiertI Dokumente können beliebigen Klassen zugeordnet werden
ACM Computing Classification System
Ursprünglich Klassifikation in der Zeitschrift ACM ComputingReviews,wird vielfach als Standard-Klassifikation in der Informatikverwendet.
Elemente:I general terms: vorgegebene Menge von allgemeinen BegriffenI classification codes: dreistufige monohierarchische
KlassifikationI subject headings: vorgegebene Menge von
natürlichsprachlichen Bezeichnungen für jede einzelne Klasse,die diese weiter differenzieren; außerdem alle Eigennamen
I free terms: zusätzliche, frei wählbare Stichwörter
General terms:
These apply to any elements of the tree that are relevant
ALGORITHMS MANAGEMENTDESIGN MEASUREMENTDOCUMENTATION PERFORMANCEECONOMICS RELIABILITYEXPERIMENTATION SECURITYHUMAN FACTORS STANDARDIZATIONLANGUAGES THEORYLEGAL ASPECTS VERIFICATION
Übersicht über die Hauptklassen
A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX
H.3 INFORMATION STORAGE AND RETRIEVALH.3.0 GeneralH.3.1 Content Analysis and Indexing
Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses
H.3.2 Information StorageFile organizationRecord classification
H.3.3 Information Search and RetrievalClusteringQuery formulationRetrieval modelsSearch processSelection process
H.3.4 System and Software...
Eigenschaften der ACM-CCS
I MonohierarchieI feste Tiefe (vier Ebenen)
I Buchstaben/Ziffern-Code für Ebene 1–3I “subject heading” auf Ebene 4
I Dokumente können nur der 4. Ebene zugeordnet werden
Dezimalklassifikation
Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickeltUniversalklassifikation zur Aufstellung von Buchbeständen
Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)zur Universellen Dezimalklassifikation (DK)(im Gegensatz zur DDC kaum noch benutzt)
Grundelemente der DK:I Hierarchisch gegliederten Klassen (130000)I Anhängezahlen zur FacettierungI Sonderzeichen zur Verknüpfung mehrerer DK-Zahlen
Hauptklassen
Die DK-Haupttafeln umfassen die Hauptabteilungen:0 Allgemeines1 Philosophie2 Religion, Theologie3 Sozialwissenschaften, Recht, Verwaltung4 (zur Zeit nicht belegt)5 Mathematik, Naturwissenschaften6 Angewandte Wissenschaften, Medizin, Technik7 Kunst, Kunstgewerbe, Photographie, Musik, Spiel, Sport8 Sprachwissenschaft, Philologie, Schöne Literatur,
Literaturwissenschaft9 Heimatkunde, Geographie, Biographien, Geschichte
Beispiel für die Untergliederung einer Hauptklasse
Beispiel:3 Sozialwissenschaften, Recht, Verwaltung33 Volkswirtschaft336 Finanzen. Bank- und Geldwesen336.7 Geldwesen. Bankwesen. Börsenwesen336.76 Börsenwesen. Geldmarkt. Kapitalmarkt336.763 Wertpapiere. Effekten336.763.3 Obligationen. Schuldverschreibungen336.763.31 Allgemeines336.763.311 Verzinsliche Schuldbriefe336.763.311.1 Langfristig verzinsliche Schuldbriefe
Facettierende Elemente
Anhängezahlen: durch spezielle Zeichen eingeleitetallgemeine Anhängezahlen: Facetten, die überall in der DKverwendet werden dürfenZeichenfolgen/Facetten:
= Sprache(0...) Form(...) Ort
(=...) Rassen und Völker„...“ Zeit.00 Gesichtspunkt-05 Personspezielle Anhängezahlen: nur für bestimmte Klassen innerhalb derDK erlaubt
Verknüpfung von DK-Zahlen
spezielle Sonderzeichen zur Verknüpfung von DK-Zahlen:+ Aufzählung mehrerer Sachverhalte: symmetrische Beziehung zwischen zwei Sachverhalten
(umkehrbar):: asymmetrische Beziehung zwischen zwei Sachverhalten/ Erstreckungszeichen (zur Zusammenfassung mehrerer
nebeneinanderstehender DK-Zahlen)’ Zusamenfassungszeichen zur Bildung neuer Sachverhalte aus
der Kombination einzelner DK-Komponenten
Thesauri
DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren(natürlichsprachlichen) Bezeichnungen.
Merkmale eines Thesaurus:a) terminologische Kontrolle durch
I Erfassung von SynonymenI Kennzeichnung von Homonymen und PolysemenI Festlegung von Vorzugsbenennungen
b) Darstellung von Beziehungen zwischen Begriffen“
Terminologische Kontrolle
Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache
SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen
Arten von Synonymie:I Schreibweisenvarianten
Friseur — FrisörUN — UNO — Vereinte Nationen
I unterschiedlichen Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — Kurzsichtigkeit
I Quasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk
Synonymkontrolle
Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:
I unterschiedliche SpezifitätSprachwissenschaft — Linguistik
I AntonymeHärte — Weichheit
I zu spezieller UnterbegriffWeizen — Winterweizen
I Gleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung
Polysemkontrolle
Aufteilung von einer (mehrdeutigen) Bezeichnung auf mehrereÄquivalenzklassen
I Homonyme (Bs. Tenor, Vollzug, modern, Hochzeit)I Polyseme (Bs. Bank, Deckung)
Zerlegungskontrolle
Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“
Nachteile zu spezieller Begriffe:I Thesaurus zu umfangreich / unübersichtlichI nur wenige Dokumente zu einer Äquivalenzklasse
UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)
Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum
Thesaurusmethode: Kompromiß zwischen beiden Ansätzen
Äquivalenzklasse — Deskriptor
Terminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen
Darstellung dieser Äquivalenzklassen:I Thesaurus ohne Vorzugsbenennung:
Gleichbehandlung aller Elemente der ÄquivalenzklasseI Thesaurus mit Vorzugsbenennung:
Auswahl eines Elementes der Äquivalenzklasse zur Benennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)
Beziehungsgefüge des ThesaurusÄquivalenzrelation
zwischen Nicht-Deskriptoren und DeskriptorenBezeichnungen:BS Benutze Synonym (use)BF Benutzt für (used for, UF)Fernsprecher BS TelefonTelefon BF Fernsprecher
Hierarchische Relation
zwischen DeskriptorenBezeichnungen:UB Unterbegriff (narrower term, NT)OB Oberbegriff (broader term, BT)Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum
Assoziationsrelation
zwischen begriffsverwandten Deskriptoren, symmetrischBezeichnung: VB verwandter Begriff (see also, SEE)Obstbaum VB ObstObst VB Obstbaum
Darstellung des ThesaurusDeskriptor-Einträge
I BegriffsnummerI Notation / Deskriptor-KlassifikationI Scope note / DefinitionI SynonymeI Oberbegriffe / UnterbegriffeI Verwandte BegriffeI Einführungs-/Streichungsdatum
Gesamtstruktur des Thesaurus
(in gedruckter Form)Hauptteil mit den Deskriptor-Einträgenalphabetisch / systematisch geordnet
zusätzliche Register mit Verweisen auf die Deskriptor-EinträgeI systematisch / alphabetisch (komplementär zum Hauptteil)I Index für Komponenten mehrgliedriger Bezeichnungen
KWIC — keyword in contextKWOC — keyword out of context
Beispiel: INSPEC-Thesaurus
Information retrievalUF CD-ROM searching
Data accessDocument retrievalOnline literature searchingRetrieval, information
BT Information scienceNT Query formulation
Query processingRelevance feedback
RT Bibliographic systemsInformation analysisInformation storageQuery languages
Query processingUF Data querying
Database queryingQuery optimisation
BT Information retrievalRT Database management systems
Database theoryDATALOGQuery languages
Query formulationUF Search strategiesBT Information retrieval
Relevance feedbackBT Information retrieval
Beispiel-Thesaurus
0.0058 Magnetismus (Forts.)Magnetband BF HalleffektVB Magnetbandlaufwerk BF Induktion
OB ElektrodynamikUB Magnetfeld
0,0045 BIK GeophysikMagnetbandgerät BFK ErdmagnetismusBS Magnetbandlaufwerk NE7 BIK Optik
BFK Faraday-Effekt0. 0046Magnetbandkassette 0.0070NO NE83 MagnetkarteBF Kassette NO NE87BF MB-Kassette BF TelefonkärtchenOB Datenträger OB DatenträgerVB Magnetbandkassettenlaufwerk VB Kartensystem
0.0051 0.0073Magnetbandkassettengerät MagnetkartensystemBS Magnetbandkassettenlaufwerk NE7 NO ECS
OB Kartensystem
0.0050Magnetbandkassettenlaufwerk 0.0074NO NE7 MagnetkartentelefonBF Magnetbandkassettengerät NO GK72BF MB-Kassettengerät BF MakatelOB Datenausgabegrät OB KartentelefonOB DateneingabegerätOB DatenspeichertechnikVB Magnetbandkassette 0 0077
MagnetplatteNO NE82
0.0044 OB DatenspeicherMagnetbandlaufwerk OB DatenträgerNO NE7 VB MagnetplattenlaufwerkBF Magnetbandgerät BIK DatenspeicherOB Bandgerät BFK PlattenspeicherOB DatenausgabegerätOB DateneingabegerätOB Datenspeichertechnik 0.0081VB Magnetband Magnetplattengerät
BS Magnetplattenlaufwerk0.0059Magnetfeld 0.0079NO WD2 MagnetplattenlaufwerkOB Magnetismus NO NE7
BF MagnetplattengerätOB Datenausgabegerät
0.0060 OB DateneingabegerätMagnetismus OB DatenspeichertechnikNO WD2 VB MagnetplatteBF Barkhausen-EffektBF Ferromagnetismus
Thesauruspflege
Anpassung des Thesaurus an Veränderungen in der Anwendungnotwendig aufgrund von
I Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimediale Systeme
I Entwicklung der FachspracheI Indexierungsverhalten / IndexierungsergebnisseI BenutzerverhaltenI Rechercheergebnisse
Problem: Überwachung der Konsistenz des Thesaurus
RDF
(Resource Description Framework)vom W3C im Rahmen der ‘Semantic Web’-Initiative geförderteBeschreibungssprache
Idee: ausdrucksstärkere BeschreibungsspracheI Instanzen zu KonzeptenI beliebige Beziehungen zwischen Instanzen ausdrückenI Statements der Art Subjekt-Prädikat-Objekt
RDF: basic concepts
Resource object on the WWW, e.g. Web page, databasenaming of resources: Uniform Resource Identifier(URI)
Literal special type of resource, with string value, no explicitURI
Property aspect / attribute / characteristics / relationStatement resource + named property + value of property
(subject, predicate, object)
Norbert Pisavisits
RDF example
IR−Course
"Introduction to IR"
ISSDL
isPartOf
N.Fuhr
teaches
Name
"Norbert Fuhr"
"[email protected]−..."
title
organized−byM.Agosti
"Maristella Agosti" "agosti@..."
Name Email
RDF schemas
similar to semantic networks / description logicsdescribes relationships between types of resources and/or properties
I fundamental conceptsI rdfs:ResourceI rdf:PropertyI rdfs:Class
I schema definition conceptsI rdf:typeI rdfs:subClassOfI rdfs:subPropertyOfI rdfs:seeAlsoI rdfs:isDefinedBy
RDFS example: resource hierarchy
rdf:Typerdfs:subClassOf
xyz:MotorVehicle
xyz:Truck
xyz:PassengerVehicle
xyz:Van
xyz:MiniVan
rdfs:Class
rdfs:Resource
RDFS example: resource and property hierarchies
rdfs:Class
tourist−visit business−visit
Person Placevisits
rdfs:subClassOf
business−visit
visits
Conf.−Loc.ISSDL−Tutor
N. Fuhr Pisabusiness−visit
rdfs:subClassOf
rdf:Property
rdf:type
rdf:type rdf:type
rdf:type
rdfs:subPropertyOf
rdf:type
Freitextsuche
Voraussetzungen:I Zerlegung von Texten in WörterI (Stopworteliminierung)I (Satzendeerkennung)
Probleme bei der Freitextsuche:
I HomographenTenor: Sänger / Ausdrucksweise
I PolysemeBank: Sitzgelegenheit / Geldinstitut
I FlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschrieben
I DerivationsformenFormatierung – Format – formatieren
I Komposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän Bundeskanzlerwahl
I Nominalphrasen (aus mehreren Nomen zusammengesetzteBegriffe)Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved
Das Problem der Wortwahl bleibt ungelöst!
Informatischer Ansatz
Zeichenketten-Operatoren für die FreitextsucheI Truncation
Front-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibeschreib$$: schreiben, schreibst#schreiben: schreiben, beschreiben, anschreiben, verschreiben$$schreiben: beschreiben, anschreiben
I (Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben
Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von Wörtern zusammenzuführen(auch für Komposita geeignet)
Vorteil: weniger Schreibarbeit als beim expliziten AufzählenNachteil: möglicherweise unerwünschte Wörter dabei
Kontextoperatoren
zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!
I genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation loss
I maximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrieval
I Wortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformation
I gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .
Computerlinguistischer Ansatz
Arten von Verfahren:graphematische Verfahren auf der Analyse von Buchstabenfolgen
basierende Algorithmen, hauptsächlich zurZusammenführung von Flexions- oderDerivationsformen (Morphologie)
lexikalische Verfahren Wörterbuch-basierte Verfahren zurZusammenführung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdrücken
syntaktische Verfahren zur Identifikation von mehrgliedrigenAusdrücken
Graphematische Verfahren
(für die englische Sprache)I Grundformreduktion
Zurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv
I lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → apply
I formale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit
I StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput
Lexikographische Grundformreduktion
(nach Kuhlen 77)
% alle Vokale (einschließlich Y)∗ alle Konsonanten/ ,oder’6B Leerzeichen→ ,zu’← ,aus’¬ ,nicht’
1) IES → Y2) ES → 6B wenn ∗O / CH / SH / SS / ZZ / X
vorangehen3) S → 6B wenn ∗ / E / %Y / %O / OA / EA vorangehen4) S’ → 6B
IES’ → YES’ → 6B
5) ’S → 6B’ → 6B
6) ING → 6B wenn ∗∗ / % / X vorausgehenING → E wenn %∗ vorausgehen
7) IED → Y8) ED → 6B wenn ∗∗ / % / X vorausgehen
ED → E wenn %∗ vorausgehen
Regel 1 IES → Y
Beispiele zu 1:APPLIES → APPLYIDENTIFIES → IDENTIFYACTIVITIES → ACTIVITY
Regel 2 ES → 6B, wenn ∗O / CH / SH / SS / ZZ /X vorangehen
Beispiele zu 2:BREACHES → BREACHPROCESSES → PROCESSFISHES → FISHCOMPLEXES → COMPLEXTANGOES → TANGOBUZZES → BUZZ
Regel 3 S → 6B, wenn ∗ / E / %Y / %O / OA /EA vorangehen
Beispiele zu 3:METHODS → METHODHOUSES → HOUSEBOYS → BOYRADIOS → RADIOCOCOAS → COCOAFLEAS → FLEA
Regel 4 S’ → 6BIES’ → YES’ → 6B
Beispiele zu 4:MOTHERS’ → MOTHERLADIES’ → LADYFLAMINGOES → FLAMINGO
Regel 5 ’S → 6B’ → 6B
Beispiele zu 5:MOTHER’S → MOTHERCHILDREN’S → CHILDRENPETRUS’ → PETRUS
Regel 6 ING → 6B, wenn ∗∗ / % / X vorausgehenING → E, wenn %∗ vorausgehen
Beispiele zu 6:DISGUSTING → DISGUSTGOING → GOMIXING → MIXLOOSING → LOOSERETRIEVING → RETRIEVE
Regel 7 IED → Y
Beispiel zu 7:SATISFIED → SATISFY
Regel 8 ED → 6B, wenn ∗∗ / % / X vorausgehenED → E, wenn %∗ vorausgehen
Beispiel zu 8:DISGUSTED → DISGUSTOBEYED → OBEYMIXED → MIXBELIEVED → BELIEVE
Lexikalische Verfahren
besonders für stark flektierte Sprachen (z.B. deutsch) geeignet
Relationen im Wörterbuch:I Flexionsform (Vollformen) — zugehörige Grundform
Hauses - Haus, ging - gehenI Derivationsform — zugehörige Grundformen
Lieblosigkeit — lieblos, Berechnung — rechnenI Komposita — zugehörige Dekomposition
Haustür — Tür, Armbanduhr — Uhr.
Syntaktische Verfahren
(zur Behandlung von Nominalphrasen)
1. Wortklassenbestimmung2. Parsing3. Identifikation von Nominalphrasen4. Head-Modifier-Strukturen5. Matching
Wortklassenbestimmung
typische Wortklassen:
AT article PN personal pronounBEZ “is” RB adverbCONJ conjunction RBR comparative adverbIN preposition TO “to”JJ adjective VB verb, base formJJR comparative adjective VBD verb, past tenseMD modal (can, have, may,...) VBG verb, present participle, gerundNN singular or mass noun VBN verb, past participleNNP singular proper noun VBP verb, non 3rd singular presentNNS plural noun VBZ verb, 3rd singular presentPERIOD .:?! WDT wh-determiner (what, which)
Datenquellen für die Wortklassenbestimmung
I (Vollformen-)WörterbuchI graphematische Verfahren
(insbesondere für nicht im Wörterbuch enthaltene Wörter)
Problem:Wortklassenbestimmung in wenig flektierten SprachenThe boys play football vs.She saw the new play
→ zusätzliche Berücksichtigung der syntaktischen Struktur(Bigramme, Trigramme) notwendig:AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN
Beispiel:Wortklassenbestimmung basierend auf dem Kuhlen-AlgorithmusNr. Regel Klasse1 IES → Y NNS/VBP2 ES → 6B NNS/VBP3 S → 6B NNS/VBP4 S’ → 6B, IES’ → Y , ES’ → 6B NNS5 ’S → 6B, ’ → 6B NN6 ING → 6B, ING → E VBG7 IED → Y VBD/VBN/JJ8 ED → 6B , ED → E VBD/VBN/JJ
Kombination von graphematischem Verfahren und Vollformen-WB
(Rückführung unbekannter Wörter auf WB-Einträge mittelsgraphematischer Verfahren) [Mikheev 98]
Präfix WB-Klassen Wortklassenre JJ NN VBG JJ NN VBGex NN NNself- NN NNinter JJ JJnon JJ JJun RB RBdis JJ JJanti- NN JJde JJ VBD VBN JJ VBD VBNin RB RB
Postfix WB-Klassen Wortklassenment NN VB VBP NNing NN VB VBP JJ NN VBGed NN VB VBP JJ VBD VBNs NN VB VBP NNS VBZly JJ NN RB RBness JJ NNship NN NNable NN VB VBP JJs NN NNS
Wortklassenbestimmung mit deterministischem Tagger
nur 70 % korrekte Zuordungen! [Greene & Rubin 77]
aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report
→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]
Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen
Parsing
eine einfache Grammatik:S → NP VPNP → AT? JJ* NNS+
→ AT? JJ* NN+→ NP PP
VP → VB PP→ VBZ→ VBZ NP
PP → IN NP
Beispiele:The analysis of 25 indexing algorithms shows consistent retrievalperformance.AT NN IN JJ NN NNS VBZ JJ NN NNA good indexing technique for Web retrieval is manualclassification.AT JJ NN NN IN NN NN VBZ JJ NN
Identifikation von Nominalphrasen
nur bestimmte syntaktische Strukturen relevant→ partielles parsingeinfache Muster (ohne Unterscheidung (NN/NNP/NNS):phrase → NN NN+
→ NN+ IN JJ* NN+Beispiele:indexing algorithmsretrieval performanceretrieval of Web documentsretrieval of new documents
Head-Modifier-Strukturen
basierend auf der Transformation der Nominalphrasen inhead-modifier-Strukturen:
head: Nomen, das die wesentliche BedeutungdeNominalphrase ausdrückt:information retrieval, indexing algorithm
modifier: modifiziert/spezialisiert die Bedeutung des Heads
head-Modifier-Strukturen können geschachtelt auftreten→ Darstellung als geschachtelte Listen oder Bäume
(((multimedia,document),retrieval),system)
the domain of possible categories of linguistic expressions
possible
domain
linguistic
categories
expressions
Matching-Prozess
1. Nominalphrase in Head-Modifier-Struktur überführen(Transformationsregeln basierend auf der syntaktischenStruktur, ggfs. auch mit lexikalischen Angaben)
2. Vergleich: Head- bzw. Modifier-Rolle (bzgl. der gemeinsamenWurzel) müssen übereinstimmen(einzelnes Nomen = Head)
Beispiel:(((semistructured,data), retrieval) system) wird gematcht von
I (retrieval, system)I (semistructured, data)I (data, retrieval)
aber nicht vonI (retrieval, data)
Beurteilung der Verfahren zur Repräsentation vonTextinhalten
I Dokumentationssprachen bieten prinzipiell Vorteile gegenüberder Freitextsucheaber: dieser Vorteil ist bislang experimentell nicht belegt, esgibt sogar gegenteilige Ergebnisse
I Erfahrungen aus TREC:halb-formale Konzepte (wie geographische undDatumsangaben) sind durch Freitextsuche nicht abzudecken
I wissensbasiertes IR:benötigt zunächst große Wissensbasen, die bislang nichtverfügbar sind (CYC-Project, semantic Web)
I syntaktische Verfahren:für Nominalphrasen
I maschinenlesbare Wörterbücher:für Nominalphrasen und zur Disambiguierung
Einfache statistische ModelleBeispiel für computerlinguistischen Ansatz
Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not produced consistentretrieval performance. The best indexing technique for retrievingdocuments is not known.Stoppworteliminierung:experiments indexing methods analysis indexing algorithmsproduced consistent retrieval performance best indexing techniqueretrieving documents knownStammformreduktion:experiment index method analys index algorithm produc consistentretriev perform best index techni retriev document
„semantische“ Sicht
I Multimenge von TermsI Formen des Vorkommens
(Ort, Sicherheit)
Modell:I Abbildung auf AttributeI Semantik durch Statistik!
Computerlinguistische Verfahren sind präziser (undbenutzerfreundlicher) als der informatische Ansatzaber:alle Verfahren sind mit Fehlern behaftet!