49
Internet-Suchmaschinen Aktueller Stand und Entwicklungsperspektiven Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg

Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Internet-Suchmaschinen Aktueller Stand und Entwicklungsperspektiven

Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg

Page 2: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Prof. Dr. Dirk Lewandowski

•  Professor für Information Research & Information Retrieval an der Hochschule für Angewandte Wissenschaften Hamburg

•  Forschung vor allem zur Qualität von Suchmaschinen, Nutzerverhalten, Query Understanding, gesellschaftliche Aspekte der Web-Suche

Page 3: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Inhalt

1.  Der Suchmaschinenmarkt: Wo stehen wir heute? 2.  Aktuelle Entwicklungen

–  Semantische Suche

–  Soziale Suche –  Suchneutralität

3.  Zusammenfassung: Warum ist das wichtig?

Page 4: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Der Suchmaschinenmarkt: Wo stehen wir heute?

Page 5: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

XXXX

http://web.archive.org/web/19961023234631/http://altavista.digital.com/

Page 6: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Suchmaschinen

Page 7: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

7 | Dirk Lewandowski

•  x

Page 8: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

E-Commerce

Page 9: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Site-intern und andere Datenbestände

Page 10: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Service

Page 11: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Masse

• In Deutschland in einem Monat 5,6 Milliarden Suchanfragen („Kern-Suche“).

• Pro Tag: >180 Millionen

• Pro Stunde: 7,5 Millionen

• Pro Minute: 125.448

• Pro Sekunde: 2.091 11 |

Page 12: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Der Suchmaschinenmarkt: Wo stehen wir heute?

•  Suchmaschinen sind der Zugang zum Wissen im Web •  (Quasi-)Monopol in der Web-Suche, Vielfalt in anderen Bereichen

•  Suche bleibt ein weitgehend unterschätzter Bereich

Page 13: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Aktuelle Entwicklungen (1): Semantische Suche

Page 14: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Semantik?

•  „Semantic Web“ –  Idee, dass durch semantische Auszeichnungen alle Inhalte des Web miteinander

verbunden werden und von Maschinen verstanden werden können.

–  Alternative Ansätze: Linked Open Data, ...

•  „Low Level Semantics“ –  Faktenextraktion aus „chaotischen“ Dokumenten

–  Einfache Auszeichnungen durch Website-Betreiber (Eigeninteresse bedienen)

•  Verstehen der Dokumente vs. Verstehen der Suchanfragen

Page 15: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Semantische Suche: Dokumente verstehen

Page 16: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Semantische Annotation von Dokumenten

•  Semantische Annotationen können in der Suche ausgenutzt werden, um •  die Ergebnisqualität zu verbessern •  die Trefferdarstellung („Snippets“) zu verbessern

•  Das Problem von „echten“ Semantic-Web-Anwendungen ist die Komplexität in der Erstellung.

•  Im letzten Jahr haben sich die großen Suchmaschinen auf ein gemeinsames Format für semantische Annotationen geeignet, das in HTML umgesetzt wird.

Page 17: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

17 | Dirk Lewandowski

•  x

Page 18: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Beispiel Google Knowledge Graph

Page 19: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Page 20: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Semantische Suche: Suchanfragen verstehen

Page 21: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Suchanfragen verstehen

•  bbl •  vatikan •  stockbrot •  motonetix •  nedcom •  fußball •  drehscheibe •  frauentausch •  seelenfarben •  kachelmannwetter •  osterei •  wie ich •  wgt

Page 22: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Suchanfragen im Kontext

Page 23: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Beispiel: Navigationsorientierte Suchanfragen anhand von Klicks bestimmen

(Lewandowski, Drechsler & von Mach, im Druck)

Page 24: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Semantische Suche

•  Verbesserung der Qualität der Suchergebnisse durch –  Verstehen der Suchanfrage –  Kontextsensitive Vorschläge zur Verbesserung der Suchanfrage –  Verstehen der Dokumente, dadurch besserer Abgleich mit der Suchanfrage –  Semantische Anreicherung der Ergebnisbeschreibungen („Snippets“), dadurch

besser fundierte Entscheidung der Nutzer? –  Präsentation von aus Dokumenten zusammengestellten Ergebnissen (auf den

Seiten der Suchmaschine)

Page 25: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Aktuelle Entwicklungen (2): Soziale Suche

Page 26: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Gruppen von Rankingfaktoren

•  Textstatistik –  „Wie gut passen Anfrage und Dokument zusammen?“ –  Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...

•  Popularität –  „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses

Dokument treffen würde?“ –  Linkpopularität (linktopologisches Modell), Klickpopularität (Nutzungsmodell).

•  Aktualität –  „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“ –  Datumsangaben, Linkstruktur, ...

•  Lokalität –  „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“ –  Länderinterfaces

Page 27: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Soziale Suche

•  Problem des bisherigen Rankings: Qualität wird vor allem durch Popularität (Links/Klicks) gemessen

•  Populär bei der Masse

•  Populär in einer bestimmten Nutzergruppe

•  Populär bei einem bestimmten Nutzer (Personalisierung)

•  Das Versprechen des „Social Ranking“:

•  Von Bekannten empfohlene Suchergebnisse sind relevanter und vertrauenswürdiger.

•  Problem: Im Gegensatz zu Linkdaten aus dem freien Web handelt es sich bei Sozialen Netzwerken um geschlossene Netzwerke, auf die die Suchmaschinen nicht per Crawling zugreifen können.

Page 28: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Bing und Facebook

•  Vereinbarung über die Nutzung von Facebook-Daten in Bing –  Anmeldung in Bing mit dem Facebook-Account –  Bislang nur in den USA verfügbar –  Bing-Websuche in Facebook integriert

•  Anreicherung der Suchergebnisse durch Daten aus Facebook –  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden –  Höheres Ranking von empfohlenen Ergebnissen –  Möglichkeit, Suchergebnisse in Facebook zu posten –  Diskussion mit Facebook-Freunden auf den Bing-Ergebnisseiten

Page 29: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

29 | Dirk Lewandowski

•  x

Page 30: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Google und Google+

•  Aufbau eines eigenen sozialen Netzwerks durch Google –  Integration in alle Google-Dienste –  Bislang allerdings nicht besonders erfolgreich

•  Anreicherung der Suchergebnisse –  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden –  Höheres Ranking von empfohlenen Ergebnissen

•  Weiterer Nutzen von Google+ –  „Klarnamen-Pflicht“ –  Kombination mit anderen Profilen im Web (Twitter, etc.) –  Verbindung mit Daten zur Autorschaft (rel=author)

à Dadurch „Vertrauens-Graph“ als weitere Komponente des Rankings

Page 31: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Fazit Soziale Suche

•  Soziale Suche vielschichtig (kollaborative Suche, ...), wichtigster Punkt ist aber das Einbeziehen von Daten aus sozialen Netzwerken in das Ranking und die Ergebnispräsentation.

•  Beide großen Suchmaschinen haben Ansätze, solche Daten zu integrieren. –  Vorteil Bing: Daten aus dem Netzwerk, in dem tatsächlich etwas los ist. –  Vorteil Google: Tiefere Integration möglich, da es sich um ein eigenes Netzwerk

handelt.

Page 32: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Aktuelle Entwicklungen (3): Suchneutralität

Page 33: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

33 |

•  x

Page 34: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

34 |

•  x

Anzeigen

Nachrichten

Bilder

Videos

Blogbeiträge

Page 35: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Zusammenstellung der Suchergebnisse

•  Das Suchanfragevolumen ist sehr ungleichmäßig verteilt.

•  Treffer auf den vorderen Plätzen werden sehr stark bevorzugt.

•  Durch entsteht ein großer Einfluss von Suchmaschinen (Google) auf das, was Nutzer zu sehen bekommen.

1.  Dürfen die Suchmaschinen ihre eigenen Angebote / die Angebote von Partnern in der Ergebnisdarstellung bevorzugen?

2.  Tun sie das?

•  „Such-Neutralität“ bedeutet, dass eine Suchmaschine alle Dokumente im Index nach gleichen Kriterien in das Ranking mit einbezieht.

Page 36: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

36 | Dirk Lewandowski

•  x

Page 37: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

37 | Dirk Lewandowski

•  x

Page 38: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

38 | Dirk Lewandowski

•  x

Page 39: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Aus welchen Quellen kommen die top10 organischen Ergebnisse? Beispiel Google (2008)

Page 40: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Problemfelder

•  Bevorzugung eigener Angebote –  In den organischen Ergebnissen –  In den Universal-Search-Ergebnissen

•  Aufnahme in den Index –  Bsp. Paid Inclusion bei Google Shopping: Eintragungen werden kostenpflichtig –  Folgen weitere Dienste (Places, ...)?

à Kennzeichnung als eigenes Angebot bzw. Partnerangebot als Lösung?

Page 41: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Zusammenfassung: Warum ist das wichtig?

Page 42: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Um wen geht‘s?

1.  Anbieter von Inhalten

2.  Anbieter von Suchsystemen

3.  Rechercheure

Page 43: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Konsequenzen für Anbieter von Inhalten

•  Es wird zunehmend schwieriger, sich auf den Suchergebnisseiten zu platzieren.

–  Mehr Konkurrenz –  Schnellere Orientierung der Nutzer auf den Ergebnisseiten; mehr

verschiedenartige Inhalte. –  Aktuelle Möglichkeiten der semantischen Auszeichnung nutzen

•  Die (langsame) Wende von Dokumenten zu Fakten bzw. Informationszusammenstellungen erfordert ein Umdenken hinsichtlich der Sichtbarkeit in Suchmaschinen bzw. deren Traffic-Vermittlung.

Page 44: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

44 | Dirk Lewandowski

•  x

(Eyetracking-Studie HAW-Hamburg 2010)

Page 45: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

45 | Dirk Lewandowski

•  x

Page 46: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

46 | Dirk Lewandowski

•  x

Page 47: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Konsequenzen für Anbieter von Suchsystemen

•  Das in den Web-Suchmaschinen erlernte Suchverhalten wird auf andere Systeme übertragen

–  Navigationsorientierte Anfragen beantworten –  Suchvorschläge während der Eingabe –  Zusammenstellung der Suchergebnisseiten –  Möglichkeiten zur Kollaboration (soziale Netzwerke) geben

Page 48: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Konsequenzen für Rechercheure

•  Suchmaschinen sind weniger denn je neutrale Informationsvermittler –  Eigeninteressen der Suchmaschinen beachten –  Gezielte Auswahl der passenden Informationsquellen

•  „Gegensteuern“ gegen den „Popularitätsbias“ der Suchmaschinen –  Personalisierung bzw. Suchanfrageinterpretation ausschalten; Bsp. Google –  Populäre Websites aus der Suche ausschließen; Bsp. Millionshort

Page 49: Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

Vielen Dank für Ihre Aufmerksamkeit Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg,de Twitter: Dirk_Lew http://www.bui.haw-hamburg.de/ lewandowski.html