22
Ist meine Suchmaschine wirklich so gut, wie ich glaube? Evaluierung unter Berücksichtigung von Anfragetyp, Aufgabenkomplexität und Ergebnispräsentation Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg [email protected] @Dirk_Lew Berlin, 9. Oktober 2012 Esemos Barcamp Search

Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Ist meine Suchmaschine wirklich so gut, wie ich glaube? Evaluierung unter Berücksichtigung von Anfragetyp, Aufgabenkomplexität und Ergebnispräsentation

Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg [email protected] @Dirk_Lew Berlin, 9. Oktober 2012 Esemos Barcamp Search

Page 2: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Suchmaschinen

Page 3: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

E-Commerce

Page 4: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Fragestellung

•  Evaluierung von Suchmaschinen ist meist eindimensional; Problem der Validität und Reliabilität.

•  Resultate aus vereinfachenden Studien geben falsche bzw. ungenaue Empfehlungen für die Praxis.

•  Drei Punkte –  Anfragetypen

–  Aufgabenkomplexität

–  Ergebnispräsentation

Page 5: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Evaluierungsmethoden (Standard)

•  Retrievaltests –  Qualität der Suchergebnisse wird anhand einer bestimmten Anzahl von

Suchanfragen und der Ergebnisse dazu überprüft.

•  Usabilitytests –  Nutzer bekommen im Labor Aufgaben gestellt und werden bei deren Lösung

beobachtet.

Page 6: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Drei Problembereiche

Page 7: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Anfragetypen in der Websuche nach Broder (2002)

•  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren.

–  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert)

–  Ziel ist es, eine bestimmte Seite (wieder) zu finden.

–  Typisch: Suche nach Homepage („Ebay“).

–  Ziel ist i.d.R. ein Dokument.

•  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll.

–  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

Page 8: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Anwendungsfälle: Konkreter vs. problemorientierter Informationsbedarf

Anwendungsfall Konkret Problemorientiert Websuche Ebay-Homepage Informationen über die

neue Sherlock-Holmes-Serie der BBC

Bibliothekskatalog Ist das Buch „Information Retrieval“ von Stock in der HAW-Bibliothek vorhanden?

Welche Bücher gibt es zum Thema kollaborative Suche?

Online-Dating Welche Hobbies hat Natalia73?

Wer passt zu mir?

Produktsuche Was kostet der Roomba 581?

Welcher Staubsaugroboter ist der beste?

Page 9: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Anfragetypen

•  Anfragetypen sind teils maschinell ermittelbar

•  Die Qualität der Studien (vor allem aus dem SEO-Bereich) ist gering.

Lewandowski, Dirk; Drechsler, Jessica; von Mach, Sonja: Deriving Query Intents From Web Search Engine Queries. Journal of the American Society for Information Science & Technology 63(2012)9, 1773-1788.

Page 10: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Aufgabenkomplexität

•  Einfache vs. komplexe Aufgaben –  Wenn man nur mit einfachen Aufgaben evaluiert, greift man zu kurz.

–  Komplexe Aufgaben bislang nur in Usabilitytests abgefragt, dort aber i.d.R. zu wenige Probanden und kein Fokus auf die unterschiedliche Herangehensweise der Probanden.

–  Beispielaufgabe: „Von Zeit zu Zeit werden die Motive auf britischen Banknoten gewechselt. Im Jahr 2003 musste ein Schriftsteller einem Wissenschaftler auf dem 10 Pfund Schein Platz machen. Beide Persönlichkeiten haben denselben Vornamen - bitte finden Sie den Vornamen!“

Singer, G..; Norbisrath, U.; Lewandowski, D.: Ordinary Search Engine Users assessing Difficulty, Effort, and Outcome for Simple and Complex Search Tasks. Proceedings of the Fourth Information Interaction in Context Symposium. New York: ACM, 2012, 110-119.

Page 11: Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Page 12: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Trefferpräsentation in Suchmaschinen

•  Text

8 |

•  x

Anzeigen

Organische Ergebnisse

Universal-Search-

Ergebnisse

Page 13: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Ergebnispräsentation

•  Retrievaltests orientieren sich an gerankten Ergebnislisten. •  Ergebnisdarstellung hat sich aber geändert.

–  Kennzahlen in Retrievaltests modifizieren? •  Sichtbarkeit (sichtbarer Bereich, unsichtbarer Bereich) •  Screen real estate

•  Click-through rates

Page 14: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Methodenspektrum und Softwareunterstützung

Page 15: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Methodenspektrum

•  Logfile-Analysen •  Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer

•  Relevanztests •  Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte

Nutzer(gruppen) •  Online-Umfrage

•  Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und Selbstselektion

•  Protokollbasierte Nutzerstudien •  Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer

(zusätzliche Informationen über den Nutzer; ergänzende Befragung) •  Usability-Test

•  Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und Beweggründen; Problem der geringen Fallzahlen

•  Eyetracking –  Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von

Angeboten/Elementen von Webseiten

Page 16: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

16 |

x

•  x

Page 17: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Methodenspektrum

•  Logfile-Analysen •  Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer

•  Relevanztests •  Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte

Nutzer(gruppen) •  Online-Umfrage

•  Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und Selbstselektion

•  Protokollbasierte Nutzerstudien •  Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer

(zusätzliche Informationen über den Nutzer; ergänzende Befragung) •  Usability-Test

•  Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und Beweggründen; Problem der geringen Fallzahlen

•  Eyetracking –  Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von

Angeboten/Elementen von Webseiten

Was suchen die Nutzer tatsächlich?

Wie gut sind die angezeigten Ergebnisse?

Wie bewerten Nutzer Musicload im Vergleich mit anderen Anbietern? Welche Wünsche haben die Nutzer an eine ideale Musiksuche?

Welche Elemente auf den Musicload-Seiten werden wahrgenommen? Wie verlaufen die Blicke auf den Konkurrenzangeboten?

Page 18: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

„Korrelationsstudien“

•  Kombination aus Retrievaltests und Klassifikationsaufgaben –  Jurorenurteile (Laien) + Klassifikation (Expertenbewertungen)

–  Beispiele •  Werden Suchergebnisse, hinter denen eine kommerzielle Intention steht, von den

Nutzern schlechter bewertet?

•  Ist die hohe Positionierung von Wikipedia-Ergebnissen in den Suchmaschinen-Trefferlisten gerechtfertigt?

Lewandowski, Dirk: The influence of commercial intent of search results on their perceived relevance. Proceedings of the 2011 iConference (iConference '11). ACM, New York, NY, USA, 2011, 452-458. Lewandowski, Dirk; Spree, Ulrike: Ranking of Wikipedia articles revisited: Fair ranking for reasonable quality? Journal of the American Society for Information Science and Technology 62(2011)1, 117-132.

Page 19: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Tool Support

•  Relevance Assessment Tool (RAT) –  Testdesign im Baukastenprinzip

–  Automatisches Erfassen von Suchergebnissen von Google, Bing, T-Online, Amazon, Ebay, ...

–  Verteilte Bewertung durch Juroren

•  Search Logger –  Aufgabenbasiertes Loggingtool (Entwicklung der Uni Tartu, Estland)

•  Search Logger + RAT –  Erst Aufgabe bearbeiten, dann die Relevanz der Dokumente (ob gefunden oder

nicht gefunden) bewerten.

Singer, Georg; Norbisrath, Ulrich; Vainikko, Eero; Kikkas, Hannu: Search Logger: Analyzing Exploratory Search Tasks. Proceedings of SAC 2011. ACM, New York, USA, 2011, 751-756. Lewandowski, Dirk; Sünkler, Sebastian: Relevance Assessment Tool: Ein Werkzeug zum Design von Retrievaltests sowie zur weitgehend automatisierten Erfassung, Aufbereitung und Auswertung der Daten. In: Proceedings der 2. DGI-Konferenz: Social Media und Web Science - Das Web als Lebensraum. Frankfurt am Main: DGI, 2012, S. 237-249.

Page 20: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Fazit

Page 21: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Fazit

1.  Die aktuell eingesetzten Testmethoden sind nur zum Teil für die Fragestellungen der Praxis geeignet.

2.  Die Auswahl der geeigneten Methode ist essentiell für den Erfolg der Studie und darf nicht nur vom verfügbaren Equipment bzw. den „Testgewohnheiten“ abhängig sein.

3.  Multimethodenstudien erlauben einen wesentlich detaillierteren Blick und sind mit entsprechender Softwareunterstützung kostengünstig durchführbar.

Page 22: Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Vielen Dank für die Aufmerksamkeit.

Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information

http://www.bui.haw-hamburg.de/lewandowski.html

[email protected] @Dirk_Lew