29
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaft lichen Kolloquium 21. November 2006

Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Embed Size (px)

Citation preview

Page 1: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Die Übersetzung von “Diskursdialekten” für die Suche:

Das Mapping zwischen Fachsprachen und Indexierungssprachen

Vivien Petras

Vortrag im Berliner Bibliothekswissenschaftlichen

Kolloquium

21. November 2006

Page 2: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Das Sprachproblem im Retrieval

Wie kann jemand, der nach Violinen sucht, darauf aufmerksam gemacht werden, daß auch Geigen angeboten

werden?

Page 3: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

• Das Sprachproblem im Information Retrieval

• Dialekte und Kontext

• Der Search Term Recommender

• 3 Forschungsfragen

• Experimentelles Web Interface

Gliederung

Page 4: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

SucherAutor

IdeenraumIdeenraum

Frage Text

Such-anfrage

Treffer!

• Abgleich zwischen Autor und IR System Indexierung

• Abgleich zwischen Sucher und IR System Anfrageformulierung

Dokument

Information Retrieval = Eine Übung im Sprachabgleich

Page 5: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Information Retrieval = Eine Übung im Sprachabgleich

Sucher

Such-anfrage Dokument

Treffer!

Information Retrieval

Eine “gute” Suchanfrage beschreibt sowohl:• die Frage des Suchers (Informationsbedarf) als auch• die relevanten Dokumente in Bezug auf die Anfrage

?

Page 6: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Semiotik: Unendliche Semiose

Informationswissenschaft: Indexierungskonsistenz

Die Suchwortauswahl ist für den Erfolg eines Retrievalvorgangs ausschlaggebend.

Das Sprachproblem

Page 7: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Wie kann man die Mehrdeutigkeit der Sprache (Ambiguität) für die Suchwortauswahl verringern?

Sprachphilosophie (Wittgenstein)

Sprache wird eindeutiger in: • speziellen Kontexten und • Dialekten

Dialekte und Kontext

Page 8: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Dialekte und Kontext

Lösungsansatz für die Suchwortauswahl:

• ausgehend vom Dialekt und Kontext einer spezialisierten Gemeinschaft ( Fachsprache)

• unter Berücksichtigung der Indexierungssprache (für den Sprachabgleich im Retrieval)

Page 9: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Search Term Recommender = Hilfe zur Suchwortauswahl

Such-anfrage

Fach / Spezialisierung

Meinten Sie…

Fachbegriff / DeskriptorFachbegriff / DeskriptorFachbegriff / DeskriptorFachbegriff / Deskriptor

Dokumente

Fach / Spezialisierung

Fach / Spezialisierung

Fach / Spezialisierung

Fach / Spezialisierung Fach /

Spezialisierung

Page 10: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Search Term Recommender

Page 11: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

• Unterstützung bei der Suchwortauswahl (Anfrageerweiterung & Reformulation)

• Automatische Klassifikation

• Terminologie Mapping (Crosskonkordanzen)

Search Term Recommender: Anwendungsgebiete

Page 12: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

2. Sind Fachsprachen wirklich unterschiedlich?

3. Ist ein Fachsprachenfokus wirklich besser?

2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)

Search Term Recommender - Forschungsfragen

Page 13: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

• Physik, Elektronik & Elektrotechnik, Computer- und Automatisierungstechnik

• Dokument: Autor, Titel, Quelle, Publikationsjahr, Abstract, Inspec Thesaurus Deskriptoren, Inspec Klassifikationsnummern

• Testkollektion:

Inspec

Dokumente 427.340Deskriptoren / Dokument 6,99Begriffe 60.601Inspec Deskriptoren 8.447

Page 14: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

• Medizin und Gesundheitswesen

• Dokument: Autor, Titel, Quelle, Publikationsjahr, Publikationstyp, Abstract, MESH Schlagwörter

• Testkollektion:

Medline Ohsumed

Dokumente 168.463 MESH Schlagwörter / Dokument 3,11 Begriffe 39.762MESH Schlagwörter 12.140

Page 15: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

2. Sind Fachsprachen wirklich unterschiedlich?

3. Ist ein Fachsprachenfokus wirklich besser?

2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)

Search Term Recommender - Forschungsfragen

Page 16: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

• Domainterminologie (Fachsprache)

• Publikationsquelle

• Bibliometrische Analyse

• Analyse sozialer Netzwerke

• Fachklassifikation

Bestimmung von Dokumenten aus einem Fachbereich

Page 17: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Inspec Testkollektion• oberste Kategorien in der Inspec Klassifikation• 3 Spezialisierungen: Physics, Electrical & Electronic

Engineering, Computers & Control

Ohsumed Testkollektion• Zeitschriften nach Fachgebiet geordnet (Medline

Journal Descriptors)• 33 Spezialisierungen:• z.B. Anesthesiology, Dentistry, Endocrinology,

Hematology, Nutrition, Radiology

Identifizierung eines Fachbereiches

Page 18: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

2. Sind Fachsprachen wirklich unterschiedlich?

3. Ist ein Fachsprachenfokus wirklich besser?

2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)

Search Term Recommender - Forschungsfragen

Page 19: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Unterschiede in der Fachsprache (Überlappung von Begriffen)

Unterschiede in der Indexierungssprache (Überlappung von Deskriptoren)

Unterschiede in den Suchwortvorschlägen des Search Term Recommenders (Überlappung der vorgeschlagenen Suchworte)

Unterschiede in der Sprache

Page 20: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Inspec Fachsprachen (Überlappung der Begriffe)

20%

7%

13%

13%

4%

33%

13%

Physics

ElectricalEngineering

Computers

Analysierte Begriffe: 60.601

Überlappung der Deskriptoren: 87% (in 2 oder 3 Fachbereichen)Überlappung der vorgeschlagenen Suchworte: 30%

Page 21: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Ohsumed Fachsprachen (Überlappung der Begriffe)

Analysierte Begriffe: 11.663

Überlappung der Deskriptoren: 32% (in 2 oder 3 Fachbereichen)Überlappung der vorgeschlagenen Suchworte: 30%

13%

29%

8%

19%

2%

21%

7%

CommunicableDiseases

GynecologyOrthopedics

Page 22: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

2. Sind Fachsprachen wirklich unterschiedlich?

3. Ist ein Fachsprachenfokus wirklich besser?

2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)

Search Term Recommender - Forschungsfragen

Page 23: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

• Vorschlagen von Deskriptoren für Dokumente

Testfall: Automatische Klassifikation

Titel

STRTitel

Deskriptor 1

Deskriptor 2

Anfrage

SpeziellerSTR für

Fachbereich

AllgemeinerSTR für gesamte

Datenbank

• Vergleich:

TitelDeskriptor 1

Deskriptor 2

TitelDeskriptor 1

Deskriptor 2

Wer schlägt bessere

Deskriptoren vor?

Page 24: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Titel: “A search for clusters of protostars in Orion cloud cores”

Testfall: Automatische Klassifikation

Ursprüngliche Deskriptoren

Fachbereich Search Term Recommender

Allgemeiner Search Term Recommender

1. Infrared sources (astronomical)

2. Interstellar molecular clouds

3. Pre-main-sequence stars

4. Star associations

1. Clouds2. Clusters of galaxies3. Interstellar molecular

clouds4. Star clusters5. Pre-main-sequence

stars

1. Search problems2. Clouds3. Atomic clusters4. Clusters of

galaxies5. Interstellar

molecular clouds

Evaluation bei 5 vorgeschlagenen Deskriptoren: Recall: Trefferquote 2/4 = 0,5 1/4 = 0,25

Precision: Genauigkeit 2/5 = 0,4 1/5 = 0,20

Page 25: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Inspec STR

Inspec specialties and general STRs

0,0

0,1

0,2

0,3

0,4

0,5

0,0 0,1 0,2 0,3 0,4 0,5Recall

Prec

ision

Individual Specialty STRs

General STR

Testdokumente: 42.735

Fachbereiche: 3

Erste 3 Vorschläge:

Recall: +13,6%

Precision: +11,2%

Page 26: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Ohsumed STR

Ohsumed specialties and general STR

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7Recall

Prec

ision

Individual Specialty STRsGeneral STR

Erste 3 Vorschläge:

Recall: +26%

Precision: +25,6%

Testdokumente: 18.733

Fachbereiche: 33

Page 28: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

– Inspec: Fachklassifikation– Ohsumed: Journal Fachbereich

2. Sind Fachsprachen wirklich unterschiedlich?– Inspec Fachbereiche: Begriff Überlappung 50%, Suchwort

Überlappung 30%– Ohsumed Fachbereiche: Begriff Überlappung 30%, Suchwort

Überlappung 30%

3. Macht ein Fachsprachenfokus die Suche effizienter?– Inspec Fachbereiche: 10% Verbesserung über allg. STR– Ohsumed Fachbereiche: 25% Verbesserung über allg. STR

Zusammenfassung

Page 29: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen

Verminderung des Sprachproblems im Retrieval

Search Term Recommender:

See also:

FIDDLES50% Discount!

[email protected]