Ist meine Suchmaschine wirklich so gut, wie ich glaube?

Preview:

DESCRIPTION

 

Citation preview

Ist meine Suchmaschine wirklich so gut, wie ich glaube? Evaluierung unter Berücksichtigung von Anfragetyp, Aufgabenkomplexität und Ergebnispräsentation

Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de @Dirk_Lew Berlin, 9. Oktober 2012 Esemos Barcamp Search

Suchmaschinen

E-Commerce

Fragestellung

•  Evaluierung von Suchmaschinen ist meist eindimensional; Problem der Validität und Reliabilität.

•  Resultate aus vereinfachenden Studien geben falsche bzw. ungenaue Empfehlungen für die Praxis.

•  Drei Punkte –  Anfragetypen

–  Aufgabenkomplexität

–  Ergebnispräsentation

Evaluierungsmethoden (Standard)

•  Retrievaltests –  Qualität der Suchergebnisse wird anhand einer bestimmten Anzahl von

Suchanfragen und der Ergebnisse dazu überprüft.

•  Usabilitytests –  Nutzer bekommen im Labor Aufgaben gestellt und werden bei deren Lösung

beobachtet.

Drei Problembereiche

Anfragetypen in der Websuche nach Broder (2002)

•  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren.

–  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert)

–  Ziel ist es, eine bestimmte Seite (wieder) zu finden.

–  Typisch: Suche nach Homepage („Ebay“).

–  Ziel ist i.d.R. ein Dokument.

•  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll.

–  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

Anwendungsfälle: Konkreter vs. problemorientierter Informationsbedarf

Anwendungsfall Konkret Problemorientiert Websuche Ebay-Homepage Informationen über die

neue Sherlock-Holmes-Serie der BBC

Bibliothekskatalog Ist das Buch „Information Retrieval“ von Stock in der HAW-Bibliothek vorhanden?

Welche Bücher gibt es zum Thema kollaborative Suche?

Online-Dating Welche Hobbies hat Natalia73?

Wer passt zu mir?

Produktsuche Was kostet der Roomba 581?

Welcher Staubsaugroboter ist der beste?

Anfragetypen

•  Anfragetypen sind teils maschinell ermittelbar

•  Die Qualität der Studien (vor allem aus dem SEO-Bereich) ist gering.

Lewandowski, Dirk; Drechsler, Jessica; von Mach, Sonja: Deriving Query Intents From Web Search Engine Queries. Journal of the American Society for Information Science & Technology 63(2012)9, 1773-1788.

Aufgabenkomplexität

•  Einfache vs. komplexe Aufgaben –  Wenn man nur mit einfachen Aufgaben evaluiert, greift man zu kurz.

–  Komplexe Aufgaben bislang nur in Usabilitytests abgefragt, dort aber i.d.R. zu wenige Probanden und kein Fokus auf die unterschiedliche Herangehensweise der Probanden.

–  Beispielaufgabe: „Von Zeit zu Zeit werden die Motive auf britischen Banknoten gewechselt. Im Jahr 2003 musste ein Schriftsteller einem Wissenschaftler auf dem 10 Pfund Schein Platz machen. Beide Persönlichkeiten haben denselben Vornamen - bitte finden Sie den Vornamen!“

Singer, G..; Norbisrath, U.; Lewandowski, D.: Ordinary Search Engine Users assessing Difficulty, Effort, and Outcome for Simple and Complex Search Tasks. Proceedings of the Fourth Information Interaction in Context Symposium. New York: ACM, 2012, 110-119.

Trefferpräsentation in Suchmaschinen

•  Text

8 |

•  x

Anzeigen

Organische Ergebnisse

Universal-Search-

Ergebnisse

Ergebnispräsentation

•  Retrievaltests orientieren sich an gerankten Ergebnislisten. •  Ergebnisdarstellung hat sich aber geändert.

–  Kennzahlen in Retrievaltests modifizieren? •  Sichtbarkeit (sichtbarer Bereich, unsichtbarer Bereich) •  Screen real estate

•  Click-through rates

Methodenspektrum und Softwareunterstützung

Methodenspektrum

•  Logfile-Analysen •  Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer

•  Relevanztests •  Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte

Nutzer(gruppen) •  Online-Umfrage

•  Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und Selbstselektion

•  Protokollbasierte Nutzerstudien •  Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer

(zusätzliche Informationen über den Nutzer; ergänzende Befragung) •  Usability-Test

•  Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und Beweggründen; Problem der geringen Fallzahlen

•  Eyetracking –  Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von

Angeboten/Elementen von Webseiten

16 |

x

•  x

Methodenspektrum

•  Logfile-Analysen •  Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer

•  Relevanztests •  Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte

Nutzer(gruppen) •  Online-Umfrage

•  Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und Selbstselektion

•  Protokollbasierte Nutzerstudien •  Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer

(zusätzliche Informationen über den Nutzer; ergänzende Befragung) •  Usability-Test

•  Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und Beweggründen; Problem der geringen Fallzahlen

•  Eyetracking –  Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von

Angeboten/Elementen von Webseiten

Was suchen die Nutzer tatsächlich?

Wie gut sind die angezeigten Ergebnisse?

Wie bewerten Nutzer Musicload im Vergleich mit anderen Anbietern? Welche Wünsche haben die Nutzer an eine ideale Musiksuche?

Welche Elemente auf den Musicload-Seiten werden wahrgenommen? Wie verlaufen die Blicke auf den Konkurrenzangeboten?

„Korrelationsstudien“

•  Kombination aus Retrievaltests und Klassifikationsaufgaben –  Jurorenurteile (Laien) + Klassifikation (Expertenbewertungen)

–  Beispiele •  Werden Suchergebnisse, hinter denen eine kommerzielle Intention steht, von den

Nutzern schlechter bewertet?

•  Ist die hohe Positionierung von Wikipedia-Ergebnissen in den Suchmaschinen-Trefferlisten gerechtfertigt?

Lewandowski, Dirk: The influence of commercial intent of search results on their perceived relevance. Proceedings of the 2011 iConference (iConference '11). ACM, New York, NY, USA, 2011, 452-458. Lewandowski, Dirk; Spree, Ulrike: Ranking of Wikipedia articles revisited: Fair ranking for reasonable quality? Journal of the American Society for Information Science and Technology 62(2011)1, 117-132.

Tool Support

•  Relevance Assessment Tool (RAT) –  Testdesign im Baukastenprinzip

–  Automatisches Erfassen von Suchergebnissen von Google, Bing, T-Online, Amazon, Ebay, ...

–  Verteilte Bewertung durch Juroren

•  Search Logger –  Aufgabenbasiertes Loggingtool (Entwicklung der Uni Tartu, Estland)

•  Search Logger + RAT –  Erst Aufgabe bearbeiten, dann die Relevanz der Dokumente (ob gefunden oder

nicht gefunden) bewerten.

Singer, Georg; Norbisrath, Ulrich; Vainikko, Eero; Kikkas, Hannu: Search Logger: Analyzing Exploratory Search Tasks. Proceedings of SAC 2011. ACM, New York, USA, 2011, 751-756. Lewandowski, Dirk; Sünkler, Sebastian: Relevance Assessment Tool: Ein Werkzeug zum Design von Retrievaltests sowie zur weitgehend automatisierten Erfassung, Aufbereitung und Auswertung der Daten. In: Proceedings der 2. DGI-Konferenz: Social Media und Web Science - Das Web als Lebensraum. Frankfurt am Main: DGI, 2012, S. 237-249.

Fazit

Fazit

1.  Die aktuell eingesetzten Testmethoden sind nur zum Teil für die Fragestellungen der Praxis geeignet.

2.  Die Auswahl der geeigneten Methode ist essentiell für den Erfolg der Studie und darf nicht nur vom verfügbaren Equipment bzw. den „Testgewohnheiten“ abhängig sein.

3.  Multimethodenstudien erlauben einen wesentlich detaillierteren Blick und sind mit entsprechender Softwareunterstützung kostengünstig durchführbar.

Vielen Dank für die Aufmerksamkeit.

Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information

http://www.bui.haw-hamburg.de/lewandowski.html

dirk.lewandowski@haw-hamburg.de @Dirk_Lew

Recommended