32
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern Prof. Dr. Dirk Lewandowski [email protected]

Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Prof. Dr. Dirk Lewandowski [email protected]

Page 2: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Einführung: Wo stehen Suchmaschinen heute?

Spezialangebote der Suchmaschinen

Bündelung von Inhalten

Ranking

Fazit

Gliederung

Page 3: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Einführung: Wo stehen Suchmaschinen heute?

Spezialangebote der Suchmaschinen

Bündelung von Inhalten

Ranking

Fazit

Gliederung

Page 4: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

3 |

Web search: „Always different, always the same“

http://web.archive.org/web/19961023234631/http://altavista.digital.com/

AltaVista 1996

Page 5: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

4 |

Wo stehen Suchmaschinen heute?

•  Große Web-Datenbanken sind vorhanden •  Google, Yahoo, MSN/Live.com, Ask, Cuil •  Betrieb dieser Datenbanken technisch möglich.

•  Navigationsanfragen können zuverlässig beantwortet werden.

•  Informationsorientierte Anfragen können meist zufriedenstellend beantwortet werden. •  Großer Unterschied zwischen den Anfragen. •  Keine Suchmaschine kann alle Anfragen am besten beantworten.

•  Integration zusätzlicher Quellen •  Spezialisierte Web-Datenbanken: News, Blogs, Video, Bücher, wissenschaftliche

Inhalte, usw. •  Shortcuts: Wetter, Reise, Patente, usw. •  Zukunft: Faktenextraktion

•  Einbindung kostenpflichtiger Dokumente

Page 6: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Universal Search

•  x

Page 7: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Universal Search

•  x

News results

ads

organic results

organic results (contd.)

image results

video results

Additional databases

Page 8: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Herausforderungen für Bibliotheken

•  Nutzer verwenden Suchmaschinen zur Suche nach „Bibliotheksinhalten“

•  Suchmaschinen „erziehen“ Nutzer zu „schlechtem“ Rechercheverhalten.

•  Suchmaschinen zielen auf Kernbereiche der Bibliotheken – Buchsuche – Wissenschaftliche Inhalte

Page 9: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“

•  Suchanfragen – Durchschnittliche Länge: 1,7 Wörter – Ca. 50% Einwort-Anfragen – kaum Verwendung von Operatoren und erweiterter Suche

•  Ergebnisseiten – 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. – Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). – Pro Session werden bis etwa fünf Dokumente angesehen. – Sessions dauern i.d.R. weniger als 15 Minuten.

•  Nutzer sind meist mit ihren Suchergebnissen zufrieden.

•  Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.

(Machill et al. 2003)

Page 10: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

9 |

Selektionsverhalten (Top11 Treffer)

(Granka et al. 2004)

Page 11: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

10 |

„Most people are looking for quick wins.“

•  Beispiele aus der wissenschaftlichen Suche •  Nutzer kommen über Suchmaschinen, schauen herum und nehmen das mit, was

sie brauchen können. •  Es wird eine Vielzahl von Quellen benutzt. •  Die Hälfte der Nutzer betrachtet nur 1-3 Seiten. •  40% der Nutzer kommen innerhalb von sechs Monaten nicht mehr auf die Website

zurück. •  Nutzer sehen sich Artikel online nur ein paar Minuten lang an, vor allem kurze

Artikel werden gelesen. •  Nutzer sammeln zwar Artikel (als Ausdrucke oder Downloads), lesen sie dann aber

nicht.

Was wäre, wenn Ihre Nutzer auch so suchen?

(Nicholas 2008)

(Nicholas 2008)

Page 12: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Einführung: Wo stehen Suchmaschinen heute?

Spezialangebote der Suchmaschinen

Bündelung von Inhalten

Ranking

Fazit

Gliederung

Page 13: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Bücher

•  Microsoft hat sein Engagement in der Buchsuche eingestellt.

•  Google Book Search könnte durch die Einigung mit (US-)Verlegern/Autoren zum wichtigsten Anbieter von E-Books werden.

•  Direkter Verkauf und Lizenzierung (z.B. an Bibliotheken).

•  Die Buchsuche wird in die regulären Trefferlisten eingebunden.

Page 14: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Bücher

Page 15: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Wissenschaftliche Inhalte

•  Recherche kostenlos - Inhalte kostenlos – Forschungsportal – Alle Open-Access-Suchmaschinen

•  Recherche kostenlos - Inhalte kostenlos/kostenpflichtig – Google Scholar – Scirus

•  Zugang zur Recherche kostenpflichtig – Thomson Scientific Web Plus

Google ist in der Lage, wissenschaftliche Inhalte in die reguläre Websuche einzubinden.

Microsoft hat seine Wissenschaftssuchmaschine eingestellt.

Page 16: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Google Scholar: Inhalte

Inhalte von Google Scholar

•  Wissenschaftliche Literatur aus dem Web –  Zeitschriftenaufsätze (peer review), Konferenzbeiträge –  Bücher –  Preprints, Postprints –  Reports –  Seminararbeiten –  ...

•  Quellen –  freies Web –  Verlage und Fachgesellschaften (Crawling; keine Feeds!) –  Open-Access-Archive und -Zeitschriften –  Kein Quellenverzeichnis; Umfang der Quellen unklar

Page 17: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Einführung: Wo stehen Suchmaschinen heute?

Spezialangebote der Suchmaschinen

Bündelung von Inhalten

Ranking

Fazit

Gliederung

Page 18: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

17 |

Rankingfaktoren

•  Textspezifische Faktoren –  „Wie gut passen Anfrage und Dokument zusammen?“ – Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...

•  Popularität –  „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses

Dokument treffen würde?“ – Linkpopularität, Klickpopularität.

•  Aktualität –  „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“ – Datumsangaben, Linkstruktur, ...

•  Lokalität –  „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“ – Länderinterfaces

Im Detail: Lewandowski 2005, Kap. 6

Page 19: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

18 | Dirk Lewandowski

Qualität der Inhalte im Web vs. der Treffer in Suchmaschinen

•  Suchmaschinen bewerten mehr als nur den Dokumententext

•  Ergebnisse werden an die Anfrage angepasst – Allgemeine Anfragen werden mit allgemeinen Dokumenten beantwortet,

spezifische Anfragen mit spezifischen. – Durchmischung der Trefferliste. – Für viele Anfragen gibt es Seiten, die in den Ergebnissen auftauchen “müssen”.

•  Qualitätsbestimmung nur aufgrund formaler Merkmale – Ungeklärte Frage der Verlässlichkeit der Dokumente. – Keine Quellenkontrolle. – Relevanzuntersuchungen messen nur die empfundene Qualität der Ergebnisse.

Page 20: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Universal Search

•  x

News results

ads

organic results

organic results (contd.)

image results

video results

Additional databases

Page 21: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Probleme der OPACs

•  Unvollständiger Datenbestand – Aufsätze, Literaturdatenbanken fehlen (weitgehend)

•  “Elektronischer Zettelkatalog”?

•  Das Nutzerverhalten hat sich geändert – Kurze Suchanfragen, schnelle Ergebnisse, ein Ergebnisset – Nutzererwartungen werden stark von den Web-Suchmaschinen beeinflusst.

•  Known-Item-Suche vs. thematische Suche – OPACs müssen mit beidem klarkommen.

Page 22: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Wie der OPAC verbessert werden soll (“Katalog 2.0”)

•  Nutzerpartizipation – Rezensionen – Bewertungen

•  Anreicherung der bibliographischen Daten – Rezensionen –  Inhaltsverzeichnisse

•  Verbesserung der Navigation – Auswahlmenüs auf den Trefferseiten (Kombination von Suche und Browsing)

•  Erweiterung der Datenbasis – Federated search

Page 23: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Kern aller Suchanwendungen: Relevanzranking

•  Web 2.0 Anwendungen verbessern den Katalog, berühren aber den Kern (die Suche) nur am Rand.

•  “Search must work”

•  Nutzererwartungen – Schneller Weg zu den Ergebnissen. – Kein allzu großes Nachdenken über die Formulierung der Suchanfrage. – Keine Suche nach der passenden Datenbank vor der Suche. – Nachdem ein paar Ergebnisse auf der ersten Trefferseite angesehen wurden,

wird entschieden, wie/ob die Recherche fortgeführt wird.

Page 24: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Ranking: Mißverständnisse

•  Ein klares Sortierkriterium ist besser als ein Ranking nach Relevanz. – Ranking verändert nicht die Anzahl der Ergebnisse, sondern nur die Reihenfolge. – Andere Sortieroptionen können angeboten werden.

•  Bibliothekskataloge arbeiten ohne Ranking – Konventionelle OPACs sortieren nach dem Erscheinungsjahr.

•  Ranking ist nutzlos: Es funktioniert einfach nicht. – Es ist schwer, “Relevanz” zu bestimmen. Relevanz ist sowohl vom Kontext

abhängig als auch vom individuellen Nutzer. Trotzdem kann Ranking wenigstens eine befriedigende Trefferliste ergeben.

•  Ranking ist gar nicht so kompliziert. Man muss doch nur ein paar Standardmaße (TF/IDF) anwenden.

– Text matching reicht für ein gutes Ranking bei weitem nicht aus!

Page 25: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Gemischte Trefferlisten

•  Ranking-Algorithmen bevorzugen „das immer gleiche“. Nutzer verlangen aber nach einer gewissen Vielfalt in der Trefferliste.

•  Beispiel: Allgemeine Anfrage – Nachschlagewerk – Lehrbuch – Einschlägige Datenbank – Aktuelle Literatur – Einschlägige Zeitschriften

Page 26: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Universal Search

•  x

News results

ads

organic results

organic results (contd.)

image results

video results

Additional databases

Page 27: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Einführung: Wo stehen Suchmaschinen heute?

Spezialangebote der Suchmaschinen

Bündelung von Inhalten

Ranking

Fazit

Gliederung

Page 28: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

27 |

#1

Suchmaschinen entwickeln sich beständig weiter. Sie verbessern das Ranking und erweitern ihre Datenbestände.

Page 29: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

28 |

#2

Suchmaschinen konkurrieren mit Bibliotheken auch hinsichtlich der angebotenen Inhalte.

Page 30: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

29 |

#3

Suche ist ein Kern der Bibliotheksangebote und sollte entsprechend behandelt werden. Der OPAC muss der zentrale Zugang zu allen Bibliotheksangeboten sein.

Page 31: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

30 |

#4

Ranking ist essentiell. Bibliotheken müssen eine echte Suchmaschine für ihre Inhalte anbieten.

Page 32: Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern

Vielen Dank für Ihre Aufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html

Aktuelles Buch: Handbuch Internet-Suchmaschinen (Akademische Verlagsgesellschaft Aka, 2009)

E-Mail: [email protected]