Upload
dirk-lewandowski
View
71
Download
4
Embed Size (px)
DESCRIPTION
Citation preview
Internet-Suchmaschinen Aktueller Stand und Entwicklungsperspektiven
Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg
Prof. Dr. Dirk Lewandowski
• Professor für Information Research & Information Retrieval an der Hochschule für Angewandte Wissenschaften Hamburg
• Forschung vor allem zur Qualität von Suchmaschinen, Nutzerverhalten, Query Understanding, gesellschaftliche Aspekte der Web-Suche
Inhalt
1. Der Suchmaschinenmarkt: Wo stehen wir heute? 2. Aktuelle Entwicklungen
– Semantische Suche
– Soziale Suche – Suchneutralität
3. Zusammenfassung: Warum ist das wichtig?
Der Suchmaschinenmarkt: Wo stehen wir heute?
XXXX
http://web.archive.org/web/19961023234631/http://altavista.digital.com/
Suchmaschinen
7 | Dirk Lewandowski
• x
E-Commerce
Site-intern und andere Datenbestände
Service
Masse
• In Deutschland in einem Monat 5,6 Milliarden Suchanfragen („Kern-Suche“).
• Pro Tag: >180 Millionen
• Pro Stunde: 7,5 Millionen
• Pro Minute: 125.448
• Pro Sekunde: 2.091 11 |
Der Suchmaschinenmarkt: Wo stehen wir heute?
• Suchmaschinen sind der Zugang zum Wissen im Web • (Quasi-)Monopol in der Web-Suche, Vielfalt in anderen Bereichen
• Suche bleibt ein weitgehend unterschätzter Bereich
Aktuelle Entwicklungen (1): Semantische Suche
Semantik?
• „Semantic Web“ – Idee, dass durch semantische Auszeichnungen alle Inhalte des Web miteinander
verbunden werden und von Maschinen verstanden werden können.
– Alternative Ansätze: Linked Open Data, ...
• „Low Level Semantics“ – Faktenextraktion aus „chaotischen“ Dokumenten
– Einfache Auszeichnungen durch Website-Betreiber (Eigeninteresse bedienen)
• Verstehen der Dokumente vs. Verstehen der Suchanfragen
Semantische Suche: Dokumente verstehen
Semantische Annotation von Dokumenten
• Semantische Annotationen können in der Suche ausgenutzt werden, um • die Ergebnisqualität zu verbessern • die Trefferdarstellung („Snippets“) zu verbessern
• Das Problem von „echten“ Semantic-Web-Anwendungen ist die Komplexität in der Erstellung.
• Im letzten Jahr haben sich die großen Suchmaschinen auf ein gemeinsames Format für semantische Annotationen geeignet, das in HTML umgesetzt wird.
17 | Dirk Lewandowski
• x
Beispiel Google Knowledge Graph
Semantische Suche: Suchanfragen verstehen
Suchanfragen verstehen
• bbl • vatikan • stockbrot • motonetix • nedcom • fußball • drehscheibe • frauentausch • seelenfarben • kachelmannwetter • osterei • wie ich • wgt
Suchanfragen im Kontext
Beispiel: Navigationsorientierte Suchanfragen anhand von Klicks bestimmen
(Lewandowski, Drechsler & von Mach, im Druck)
Semantische Suche
• Verbesserung der Qualität der Suchergebnisse durch – Verstehen der Suchanfrage – Kontextsensitive Vorschläge zur Verbesserung der Suchanfrage – Verstehen der Dokumente, dadurch besserer Abgleich mit der Suchanfrage – Semantische Anreicherung der Ergebnisbeschreibungen („Snippets“), dadurch
besser fundierte Entscheidung der Nutzer? – Präsentation von aus Dokumenten zusammengestellten Ergebnissen (auf den
Seiten der Suchmaschine)
Aktuelle Entwicklungen (2): Soziale Suche
Gruppen von Rankingfaktoren
• Textstatistik – „Wie gut passen Anfrage und Dokument zusammen?“ – Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...
• Popularität – „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses
Dokument treffen würde?“ – Linkpopularität (linktopologisches Modell), Klickpopularität (Nutzungsmodell).
• Aktualität – „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“ – Datumsangaben, Linkstruktur, ...
• Lokalität – „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“ – Länderinterfaces
Soziale Suche
• Problem des bisherigen Rankings: Qualität wird vor allem durch Popularität (Links/Klicks) gemessen
• Populär bei der Masse
• Populär in einer bestimmten Nutzergruppe
• Populär bei einem bestimmten Nutzer (Personalisierung)
• Das Versprechen des „Social Ranking“:
• Von Bekannten empfohlene Suchergebnisse sind relevanter und vertrauenswürdiger.
• Problem: Im Gegensatz zu Linkdaten aus dem freien Web handelt es sich bei Sozialen Netzwerken um geschlossene Netzwerke, auf die die Suchmaschinen nicht per Crawling zugreifen können.
Bing und Facebook
• Vereinbarung über die Nutzung von Facebook-Daten in Bing – Anmeldung in Bing mit dem Facebook-Account – Bislang nur in den USA verfügbar – Bing-Websuche in Facebook integriert
• Anreicherung der Suchergebnisse durch Daten aus Facebook – Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden – Höheres Ranking von empfohlenen Ergebnissen – Möglichkeit, Suchergebnisse in Facebook zu posten – Diskussion mit Facebook-Freunden auf den Bing-Ergebnisseiten
29 | Dirk Lewandowski
• x
Google und Google+
• Aufbau eines eigenen sozialen Netzwerks durch Google – Integration in alle Google-Dienste – Bislang allerdings nicht besonders erfolgreich
• Anreicherung der Suchergebnisse – Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden – Höheres Ranking von empfohlenen Ergebnissen
• Weiterer Nutzen von Google+ – „Klarnamen-Pflicht“ – Kombination mit anderen Profilen im Web (Twitter, etc.) – Verbindung mit Daten zur Autorschaft (rel=author)
à Dadurch „Vertrauens-Graph“ als weitere Komponente des Rankings
Fazit Soziale Suche
• Soziale Suche vielschichtig (kollaborative Suche, ...), wichtigster Punkt ist aber das Einbeziehen von Daten aus sozialen Netzwerken in das Ranking und die Ergebnispräsentation.
• Beide großen Suchmaschinen haben Ansätze, solche Daten zu integrieren. – Vorteil Bing: Daten aus dem Netzwerk, in dem tatsächlich etwas los ist. – Vorteil Google: Tiefere Integration möglich, da es sich um ein eigenes Netzwerk
handelt.
Aktuelle Entwicklungen (3): Suchneutralität
33 |
• x
34 |
• x
Anzeigen
Nachrichten
Bilder
Videos
Blogbeiträge
Zusammenstellung der Suchergebnisse
• Das Suchanfragevolumen ist sehr ungleichmäßig verteilt.
• Treffer auf den vorderen Plätzen werden sehr stark bevorzugt.
• Durch entsteht ein großer Einfluss von Suchmaschinen (Google) auf das, was Nutzer zu sehen bekommen.
1. Dürfen die Suchmaschinen ihre eigenen Angebote / die Angebote von Partnern in der Ergebnisdarstellung bevorzugen?
2. Tun sie das?
• „Such-Neutralität“ bedeutet, dass eine Suchmaschine alle Dokumente im Index nach gleichen Kriterien in das Ranking mit einbezieht.
36 | Dirk Lewandowski
• x
37 | Dirk Lewandowski
• x
38 | Dirk Lewandowski
• x
Aus welchen Quellen kommen die top10 organischen Ergebnisse? Beispiel Google (2008)
Problemfelder
• Bevorzugung eigener Angebote – In den organischen Ergebnissen – In den Universal-Search-Ergebnissen
• Aufnahme in den Index – Bsp. Paid Inclusion bei Google Shopping: Eintragungen werden kostenpflichtig – Folgen weitere Dienste (Places, ...)?
à Kennzeichnung als eigenes Angebot bzw. Partnerangebot als Lösung?
Zusammenfassung: Warum ist das wichtig?
Um wen geht‘s?
1. Anbieter von Inhalten
2. Anbieter von Suchsystemen
3. Rechercheure
Konsequenzen für Anbieter von Inhalten
• Es wird zunehmend schwieriger, sich auf den Suchergebnisseiten zu platzieren.
– Mehr Konkurrenz – Schnellere Orientierung der Nutzer auf den Ergebnisseiten; mehr
verschiedenartige Inhalte. – Aktuelle Möglichkeiten der semantischen Auszeichnung nutzen
• Die (langsame) Wende von Dokumenten zu Fakten bzw. Informationszusammenstellungen erfordert ein Umdenken hinsichtlich der Sichtbarkeit in Suchmaschinen bzw. deren Traffic-Vermittlung.
44 | Dirk Lewandowski
• x
(Eyetracking-Studie HAW-Hamburg 2010)
45 | Dirk Lewandowski
• x
46 | Dirk Lewandowski
• x
Konsequenzen für Anbieter von Suchsystemen
• Das in den Web-Suchmaschinen erlernte Suchverhalten wird auf andere Systeme übertragen
– Navigationsorientierte Anfragen beantworten – Suchvorschläge während der Eingabe – Zusammenstellung der Suchergebnisseiten – Möglichkeiten zur Kollaboration (soziale Netzwerke) geben
Konsequenzen für Rechercheure
• Suchmaschinen sind weniger denn je neutrale Informationsvermittler – Eigeninteressen der Suchmaschinen beachten – Gezielte Auswahl der passenden Informationsquellen
• „Gegensteuern“ gegen den „Popularitätsbias“ der Suchmaschinen – Personalisierung bzw. Suchanfrageinterpretation ausschalten; Bsp. Google – Populäre Websites aus der Suche ausschließen; Bsp. Millionshort
Vielen Dank für Ihre Aufmerksamkeit Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg,de Twitter: Dirk_Lew http://www.bui.haw-hamburg.de/ lewandowski.html