Upload
kaethe-sommer
View
214
Download
1
Embed Size (px)
Citation preview
Die Übersetzung von “Diskursdialekten” für die Suche:
Das Mapping zwischen Fachsprachen und Indexierungssprachen
Vivien Petras
Vortrag im Berliner Bibliothekswissenschaftlichen
Kolloquium
21. November 2006
Das Sprachproblem im Retrieval
Wie kann jemand, der nach Violinen sucht, darauf aufmerksam gemacht werden, daß auch Geigen angeboten
werden?
• Das Sprachproblem im Information Retrieval
• Dialekte und Kontext
• Der Search Term Recommender
• 3 Forschungsfragen
• Experimentelles Web Interface
Gliederung
SucherAutor
IdeenraumIdeenraum
Frage Text
Such-anfrage
Treffer!
• Abgleich zwischen Autor und IR System Indexierung
• Abgleich zwischen Sucher und IR System Anfrageformulierung
Dokument
Information Retrieval = Eine Übung im Sprachabgleich
Information Retrieval = Eine Übung im Sprachabgleich
Sucher
Such-anfrage Dokument
Treffer!
Information Retrieval
Eine “gute” Suchanfrage beschreibt sowohl:• die Frage des Suchers (Informationsbedarf) als auch• die relevanten Dokumente in Bezug auf die Anfrage
?
Semiotik: Unendliche Semiose
Informationswissenschaft: Indexierungskonsistenz
Die Suchwortauswahl ist für den Erfolg eines Retrievalvorgangs ausschlaggebend.
Das Sprachproblem
Wie kann man die Mehrdeutigkeit der Sprache (Ambiguität) für die Suchwortauswahl verringern?
Sprachphilosophie (Wittgenstein)
Sprache wird eindeutiger in: • speziellen Kontexten und • Dialekten
Dialekte und Kontext
Dialekte und Kontext
Lösungsansatz für die Suchwortauswahl:
• ausgehend vom Dialekt und Kontext einer spezialisierten Gemeinschaft ( Fachsprache)
• unter Berücksichtigung der Indexierungssprache (für den Sprachabgleich im Retrieval)
Search Term Recommender = Hilfe zur Suchwortauswahl
Such-anfrage
Fach / Spezialisierung
Meinten Sie…
Fachbegriff / DeskriptorFachbegriff / DeskriptorFachbegriff / DeskriptorFachbegriff / Deskriptor
Dokumente
Fach / Spezialisierung
Fach / Spezialisierung
Fach / Spezialisierung
Fach / Spezialisierung Fach /
Spezialisierung
Search Term Recommender
• Unterstützung bei der Suchwortauswahl (Anfrageerweiterung & Reformulation)
• Automatische Klassifikation
• Terminologie Mapping (Crosskonkordanzen)
Search Term Recommender: Anwendungsgebiete
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
2. Sind Fachsprachen wirklich unterschiedlich?
3. Ist ein Fachsprachenfokus wirklich besser?
2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)
Search Term Recommender - Forschungsfragen
• Physik, Elektronik & Elektrotechnik, Computer- und Automatisierungstechnik
• Dokument: Autor, Titel, Quelle, Publikationsjahr, Abstract, Inspec Thesaurus Deskriptoren, Inspec Klassifikationsnummern
• Testkollektion:
Inspec
Dokumente 427.340Deskriptoren / Dokument 6,99Begriffe 60.601Inspec Deskriptoren 8.447
• Medizin und Gesundheitswesen
• Dokument: Autor, Titel, Quelle, Publikationsjahr, Publikationstyp, Abstract, MESH Schlagwörter
• Testkollektion:
Medline Ohsumed
Dokumente 168.463 MESH Schlagwörter / Dokument 3,11 Begriffe 39.762MESH Schlagwörter 12.140
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
2. Sind Fachsprachen wirklich unterschiedlich?
3. Ist ein Fachsprachenfokus wirklich besser?
2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)
Search Term Recommender - Forschungsfragen
• Domainterminologie (Fachsprache)
• Publikationsquelle
• Bibliometrische Analyse
• Analyse sozialer Netzwerke
• Fachklassifikation
Bestimmung von Dokumenten aus einem Fachbereich
Inspec Testkollektion• oberste Kategorien in der Inspec Klassifikation• 3 Spezialisierungen: Physics, Electrical & Electronic
Engineering, Computers & Control
Ohsumed Testkollektion• Zeitschriften nach Fachgebiet geordnet (Medline
Journal Descriptors)• 33 Spezialisierungen:• z.B. Anesthesiology, Dentistry, Endocrinology,
Hematology, Nutrition, Radiology
Identifizierung eines Fachbereiches
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
2. Sind Fachsprachen wirklich unterschiedlich?
3. Ist ein Fachsprachenfokus wirklich besser?
2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)
Search Term Recommender - Forschungsfragen
Unterschiede in der Fachsprache (Überlappung von Begriffen)
Unterschiede in der Indexierungssprache (Überlappung von Deskriptoren)
Unterschiede in den Suchwortvorschlägen des Search Term Recommenders (Überlappung der vorgeschlagenen Suchworte)
Unterschiede in der Sprache
Inspec Fachsprachen (Überlappung der Begriffe)
20%
7%
13%
13%
4%
33%
13%
Physics
ElectricalEngineering
Computers
Analysierte Begriffe: 60.601
Überlappung der Deskriptoren: 87% (in 2 oder 3 Fachbereichen)Überlappung der vorgeschlagenen Suchworte: 30%
Ohsumed Fachsprachen (Überlappung der Begriffe)
Analysierte Begriffe: 11.663
Überlappung der Deskriptoren: 32% (in 2 oder 3 Fachbereichen)Überlappung der vorgeschlagenen Suchworte: 30%
13%
29%
8%
19%
2%
21%
7%
CommunicableDiseases
GynecologyOrthopedics
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
2. Sind Fachsprachen wirklich unterschiedlich?
3. Ist ein Fachsprachenfokus wirklich besser?
2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)
Search Term Recommender - Forschungsfragen
• Vorschlagen von Deskriptoren für Dokumente
Testfall: Automatische Klassifikation
Titel
STRTitel
Deskriptor 1
Deskriptor 2
Anfrage
SpeziellerSTR für
Fachbereich
AllgemeinerSTR für gesamte
Datenbank
• Vergleich:
TitelDeskriptor 1
Deskriptor 2
TitelDeskriptor 1
Deskriptor 2
Wer schlägt bessere
Deskriptoren vor?
Titel: “A search for clusters of protostars in Orion cloud cores”
Testfall: Automatische Klassifikation
Ursprüngliche Deskriptoren
Fachbereich Search Term Recommender
Allgemeiner Search Term Recommender
1. Infrared sources (astronomical)
2. Interstellar molecular clouds
3. Pre-main-sequence stars
4. Star associations
1. Clouds2. Clusters of galaxies3. Interstellar molecular
clouds4. Star clusters5. Pre-main-sequence
stars
1. Search problems2. Clouds3. Atomic clusters4. Clusters of
galaxies5. Interstellar
molecular clouds
Evaluation bei 5 vorgeschlagenen Deskriptoren: Recall: Trefferquote 2/4 = 0,5 1/4 = 0,25
Precision: Genauigkeit 2/5 = 0,4 1/5 = 0,20
Inspec STR
Inspec specialties and general STRs
0,0
0,1
0,2
0,3
0,4
0,5
0,0 0,1 0,2 0,3 0,4 0,5Recall
Prec
ision
Individual Specialty STRs
General STR
Testdokumente: 42.735
Fachbereiche: 3
Erste 3 Vorschläge:
Recall: +13,6%
Precision: +11,2%
Ohsumed STR
Ohsumed specialties and general STR
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7Recall
Prec
ision
Individual Specialty STRsGeneral STR
Erste 3 Vorschläge:
Recall: +26%
Precision: +25,6%
Testdokumente: 18.733
Fachbereiche: 33
Inspechttp://metadata.sims.berkeley.edu/str/inspec/inspec.html
Ohsumedhttp://
metadata.sims.berkeley.edu/str/ohsumed/ohsumed.html
Experimentelle Web Interfaces
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
– Inspec: Fachklassifikation– Ohsumed: Journal Fachbereich
2. Sind Fachsprachen wirklich unterschiedlich?– Inspec Fachbereiche: Begriff Überlappung 50%, Suchwort
Überlappung 30%– Ohsumed Fachbereiche: Begriff Überlappung 30%, Suchwort
Überlappung 30%
3. Macht ein Fachsprachenfokus die Suche effizienter?– Inspec Fachbereiche: 10% Verbesserung über allg. STR– Ohsumed Fachbereiche: 25% Verbesserung über allg. STR
Zusammenfassung
Verminderung des Sprachproblems im Retrieval
Search Term Recommender:
See also:
FIDDLES50% Discount!