21
Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Embed Size (px)

Citation preview

Page 1: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Qualität von Web-Suchmaschinen

Search Engine Stragies Munich 2005

Dirk LewandowskiHeinrich-Heine-Universität Düsseldorf,

Abt. Informationswissenschaft

Page 2: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Informationswissenschaft Uni Düsseldorf

• Eine der führenden Ausbildungsstätten im Bereich Informationswissenschaft.

• Einzigartiger Studiengang „Informationswissenschaft und Sprachtechnologie“ (B.A./M.A.)– Elemente aus Informationswissenschaft, Sprachwissenschaft,

Informatik– Praktika im Verlauf des Studiums

• Forschung der Abteilung Informationswissenschaft u.a.:– Web Information Retrieval– Suchmaschinen-Marketing

Page 3: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Ziel des Vortrags

• Darstellung der Qualität von Suchmaschinen aus „neutraler Sicht“.

• Kurzer Überblick über aktuelle Forschungsergebnisse.

Page 4: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Inhalt

1. Qualität der Treffer2. Qualität der Datenbestände3. Qualität der Suchfunktionen4. Fazit

Page 5: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

1 Qualität der Treffer

Page 6: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Retrievaltests

• Qualität von Suchmaschinen wird anhand von Testanfragen gemessen.

• Errechnet wird die erreichte Präzision = Anteil der relevanten Treffer bis zu einem bestimmten Cut-Off-Wert.

• Beispiel: – 50 zufällig ausgewählte Suchanfragen– berücksichtigt werden die ersten 20 Treffer– Jeder Treffer wird bewertet: für die Suchanfrage passend oder

nicht?

Page 7: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Quelle: Griesbaum 2004

Page 8: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Quelle: Griesbaum 2004

Page 9: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Retrievaltests: Ergebnisse

• Alle Suchmaschinen schneiden schlecht ab: Präzision <0,6. D.h. nur max. 6 von 10 Treffern sind relevant.

• Andersherum: Mindestens 4 von 10 Treffern sind irrelevant.

• Die Suchmaschinen liegen nahe beieinander; Bestätigung durch Kurztests und eigene Erfahrungen.

• Testberichte in Publikumszeitschriften genügen i.d.R. nicht den Ansprüchen an Retrievaltests.

Page 10: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

2 Qualität der Datenbestände

Page 11: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Abdeckung des deutschen Web

• Größe des deutschen Web ca. 4 Mio. Domains mit ca. 320 Mio. Seiten.

• Abdeckung durch Suchmaschinen zwischen <50 Prozent und etwa 60 Prozent.

• Bessere Abdeckung als in vergleichbaren älteren Studien; Tendenz aber ähnlich.

Quelle: Pothe 2004

Page 12: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Country Bias

• Seiten aus unterschiedlichen Ländern werden unterschiedlich häufig und unterschiedlich tief indexiert.

• US-Sites werden zu >80 Prozent indexiert; andere teils nur zwischen 40-60 Prozent.

• Tiefe der Indexierung: US-Sites ca. 90 Prozent; andere teils <50 Prozent.

• Vergleichende Untersuchungen für deutschsprachige Sites liegt noch nicht vor.

Quelle: Vaughan u. Thelwall 2004

Page 13: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Index-Aktualität

• Aktualität schwankt erheblich.• Keine Komplettaktualisierung alle 30 Tage!• Aktuellster Index: Google, MSN, Yahoo.• Oft keine klaren Intervalle erkennbar.

Quelle: Informationswissenschaft Uni Düsseldorf, laufende Untersuchung

Page 14: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

3 Qualität der Suchfunktionen

Page 15: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Suchfunktionen

• Umfang der Suchmöglichkeiten variiert erheblich.• Alle großen Suchmaschinen bieten gewisse

Kernfunktionen, z.B.:– Beschränkung auf Titel– Sprachauswahl– Datumsbeschränkung– Dateiformate

• Es hat sich bisher keine einheitliche Abfragesprache herausgebildet.

Quelle: Lewandowski 2004a

Page 16: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Recherchefunktion: Datumsbeschränkung

• Suchmaschinen können nur schwer erkennen, wie aktuell eine Seite ist.

• Die Funktion „Datumsbeschränkung“ ordnet nur 4-6 von zehn Dokumente richtig zu.

• Am besten schneidet hier Google ab, danach Yahoo.• Datumsbeschränkung bei Teoma / Ask Jeeves lohnt sich

nicht.

Quelle: Lewandowski 2004b

Page 17: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

0

10

20

30

40

50

60

70

Teoma Google Yahoo

Suchmaschine

Aktuelle Seiten in Prozent

Standardsuche

Datumsbeschränkung

Quelle: Lewandowski 2004

Page 18: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Fazit

Page 19: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Fazit

• Suchmaschinen sind (noch) nicht perfekt.• Suchmaschinen erfassen oft nur einen Teil von

Websites.• Textanzeigen haben weiterhin Bedeutung, auch wenn

die Homepage gut gerankt ist.• Für kurzfristige Kampagnen sollte man sich nicht auf die

Indexierung durch Suchmaschinen verlassen.

Page 20: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Vielen Dank.

www.durchdenken.de/[email protected]

Page 21: Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Quellen

• Griesbaum, J. (2004): Evaluation of three German search engines: Altavista.de, Google.de and Lycos.de. Information Research 9(4) paper 189. http://informationr.net/ir/9-4/paper189.html

• Lewandowski, D. (2004a): Abfragesprachen und erweiterte Funktionen von WWW-Suchmaschinen. IWP - Information: Wissenschaft und Praxis 55(2), 97-102 (2004). http://www.durchdenken.de/lewandowski/doc/suchmaschinen-funktionen.php

• Lewandowski, D. (2004b): Date-restricted queries in web search engines. Online Information Review 28(2004)6, 420-427. http://www.durchdenken.de/lewandowski/doc/oir2004.php

• Vaughan, L.; Thelwall, M. (2004): Search Engine Coverage Bias: Evidence and Possible Causes. In: Information Processing & Management, 40(4), 693-707

• Pothe, A. (2004): Nachgezählt: Wie groß ist das WWW? c‘t 26/2004, 164-165