54
http://www.dkd.de Sonntag, 12. Februar 12

Alles was-sie-ueber-suche-wissen-wollten

Embed Size (px)

Citation preview

Page 1: Alles was-sie-ueber-suche-wissen-wollten

http://www.dkd.de

Sonntag, 12. Februar 12

Page 2: Alles was-sie-ueber-suche-wissen-wollten

d dkdevelopmentkommunikationdesign

Sonntag, 12. Februar 12

Page 3: Alles was-sie-ueber-suche-wissen-wollten

WillkommenTYPO3 Akademie 12

Olivier Dobberkau, Geschäftsführer dkd Member of the Expert Advisory Board TYPO3 Assoc.Twitter @[email protected]

Sonntag, 12. Februar 12

Page 4: Alles was-sie-ueber-suche-wissen-wollten

Alles was Sie über Suche wissen wollten, aber bisher nicht zu fragten wagten.

Sonntag, 12. Februar 12

Page 5: Alles was-sie-ueber-suche-wissen-wollten

Woody Allen

Inspiration zu diesem Talk:

Woody Allen Film: „Was Sie schon immer über Sex wissen wollten, aber bisher nicht zu fragen wagten“

Internet Movie Database:http://www.imdb.de/title/tt0068555/

Sonntag, 12. Februar 12

Page 6: Alles was-sie-ueber-suche-wissen-wollten

Agenda

Historie der Suche

Fachbegriffe

Das Bedürfnis „Suchen“

Wer sucht und wie sucht dieser?

Suchen als Handwerk

Suche in TYPO3 mit Apache Solr

Sonntag, 12. Februar 12

Page 7: Alles was-sie-ueber-suche-wissen-wollten

Historie

Ein kurzer Abriss über die Historie von Suchlösungen im Zeitalter der EDV.

Wirklich kurz, wirklich unvollständig und bestimmt nicht wissenschaftlich.

Sonntag, 12. Februar 12

Page 8: Alles was-sie-ueber-suche-wissen-wollten

Scratch your own itch, IBM.

Am Anfang stand der Mainframe

IBM entwickelt 1969 STAIRS (storage and information retrieval system)

Volltext Suche für Terminal Anwendungen

Performance: „far below anyone‘s expectations“

Erster großer Einsatz bei einem Verfahren des DOJ gegen IBM

Quelle: A history of online information services, 1963-1976 von Charles P. Bourne,Trudi Bellardo

Sonntag, 12. Februar 12

Page 9: Alles was-sie-ueber-suche-wissen-wollten

Internet years are dog years

Mit dem Internet verändert sich der Anspruch an eine Volltextsuche

Mit Lycos, Alltheweb (Fast) , Infoseek, Excite, AltaVista treten Suchseiten als Lösung für das Problem: „Wie !nde ich etwas im Internet?“ an

Ab 1995 wechseln sich Suchseiten in der Gunst der Internetnutzer regelmäßig ab

Yahoo fungiert als Verzeichnis von Webseiten

Sonntag, 12. Februar 12

Page 10: Alles was-sie-ueber-suche-wissen-wollten

And then came GOOGLE

Wer kennt das Erfolgsgeheimnis von Google nicht?

The Anatomy of a Large-Scale Hypertextual Web Search Engine

http://infolab.stanford.edu/~backrub/google.html

Visionäres Konzept

Viele der erwähnten Technologien sind heute Industrie-Standard und verändern immer noch die Informationstechnologie.

Lesen!

Sonntag, 12. Februar 12

Page 11: Alles was-sie-ueber-suche-wissen-wollten

Fachbegriffe

Keine Erkenntnis ohne Fachbegriffe.

Warnhinweis: Jargon-Gefahr!

Sonntag, 12. Februar 12

Page 12: Alles was-sie-ueber-suche-wissen-wollten

Alles rund ums Wort

Irformation Retrieval (IR)

Term versus Query

Index

Recall & Precision

Relevancy

Index, Inverted Index & Posting List

Recency & Authority

Sonntag, 12. Februar 12

Page 13: Alles was-sie-ueber-suche-wissen-wollten

Bedürfnis Suche

Welche Motive leiten uns bei der Suche?Wie suchen wir und was !nden wir dann?

Sonntag, 12. Februar 12

Page 14: Alles was-sie-ueber-suche-wissen-wollten

People are like Bears (only less fur)

Wie suchen wir?

Marcia Bates, 1989

THE DESIGN OF BROWSING AND BERRYPICKING TECHNIQUES FOR THE ONLINE SEARCH INTERFACE

http://pages.gseis.ucla.edu/faculty/bates/berrypicking.html

Jede Art von Suchverhalten hat dieses Muster

Sonntag, 12. Februar 12

Page 15: Alles was-sie-ueber-suche-wissen-wollten

Marcia J. Bates Berrypicking techniques for the online search interface (1989)

Sonntag, 12. Februar 12

Page 16: Alles was-sie-ueber-suche-wissen-wollten

Carrots & Sticks

Search Behavior Patterns, John Ferrara

http://www.boxesandarrows.com/view/search-behavior

Domain Expertise

Such Expertise

Kognitiver Stil

Ziel der Suche

Modus der Suche

Umstände der Suche

Sonntag, 12. Februar 12

Page 17: Alles was-sie-ueber-suche-wissen-wollten

Neo: Die Matrix

Matrix der Informationsbedürfnisse

Scope & Type -Tyler Tate. Sohn et al. Church & Smythhttp://twigkit.com/blog/2011/12/06/mobile-information-needs.html

Sonntag, 12. Februar 12

Page 18: Alles was-sie-ueber-suche-wissen-wollten

Suchen als Handwerk

Welche Lösungsansätze gibt es um eine gute Suche zu realisieren?

Wie sieht das Toolset aus?

Wohin geht die Reise?

Sonntag, 12. Februar 12

Page 19: Alles was-sie-ueber-suche-wissen-wollten

Komponenten

Überblick

Sonntag, 12. Februar 12

Page 20: Alles was-sie-ueber-suche-wissen-wollten

Indexierung

Sonntag, 12. Februar 12

Page 21: Alles was-sie-ueber-suche-wissen-wollten

Abfrage

Sonntag, 12. Februar 12

Page 22: Alles was-sie-ueber-suche-wissen-wollten

Ergebnis

Sonntag, 12. Februar 12

Page 23: Alles was-sie-ueber-suche-wissen-wollten

Analyse

Sonntag, 12. Februar 12

Page 24: Alles was-sie-ueber-suche-wissen-wollten

Zusatzkomponenten

Sonntag, 12. Februar 12

Page 25: Alles was-sie-ueber-suche-wissen-wollten

Solr-Komponenten

Indizierung

Abfrage

Ergebnis

Analyse

Zusatzkomponenten

Indexierung

Abfrage

Analyse

Ergebnis

Zusatzkomponenten

Sonntag, 12. Februar 12

Page 26: Alles was-sie-ueber-suche-wissen-wollten

TYPO3 & Suche

Am Beispiel der Apache Solr Integration. Schamlos zugegeben.

(Ich habe noch ein paar „I like Indexed Search“ Buttons zum Verschenken!)

Sonntag, 12. Februar 12

Page 27: Alles was-sie-ueber-suche-wissen-wollten

Indexierung

Indexierung von ContentAnwendungsmöglichkeiten der Indexierung

Sonntag, 12. Februar 12

Page 28: Alles was-sie-ueber-suche-wissen-wollten

Indexierbarer Content

TYPO3 Content

Datenbank-Tabellen

Externe Websites

RSS-Feeds

Dateien

Sonntag, 12. Februar 12

Page 29: Alles was-sie-ueber-suche-wissen-wollten

Möglichkeiten Indexierung

Erstellen von Synonymen

Auslassen von Stopwords

Extern vorgehaltener Content wie z.B. Online-Katalog

Aggregation von Brancheninformation

Integration von Information aus weiteren Plattformen wie z.B. Microsites oder Applikationen

Sonntag, 12. Februar 12

Page 30: Alles was-sie-ueber-suche-wissen-wollten

Abfrage

OptionenFunktionsumfang

Sonntag, 12. Februar 12

Page 31: Alles was-sie-ueber-suche-wissen-wollten

Abfrage-Optionen

Operatoren

“+” und “-” für Erzwingen oder Ausschluss

zukünftig “and” und “or” zur Verkettung

Anführungszeichen zur Zusammenfassungz.B. “Suchbegriff aus mehreren Worten”

Diakritische Zeichen

cuvée = cuvee

Søren = Sören = Soeren = Sœren = Soren

Sonntag, 12. Februar 12

Page 32: Alles was-sie-ueber-suche-wissen-wollten

Abfrage-Funktionalität

Berücksichtigung der Benutzerberechtigungen

Autovervollständigung

Suggestions

Sonntag, 12. Februar 12

Page 33: Alles was-sie-ueber-suche-wissen-wollten

Ergebnis

FunktionenFacetten

Sonntag, 12. Februar 12

Page 34: Alles was-sie-ueber-suche-wissen-wollten

Ergebnis-Funktionen

Suchtreffer (Link auf das Ergebnis)

Page Browser

Sortierung

Relevanz (Score)

Autor

Datum (Indexierungsdatum, cr_date einer TYPO3-Seite)

Eigene Kriterien

Sonntag, 12. Februar 12

Page 35: Alles was-sie-ueber-suche-wissen-wollten

Ergebnis-Funktionen

View-Helper um z.B. Zusatzinformationen zum Treffer abzurufen (kundenindividuelle Preise, Vorschaubild, Vorschau des Dokument-Inhalts)

Filter vorbelegen (Facetten können im Vorfeld angewendet werden)

Sonntag, 12. Februar 12

Page 36: Alles was-sie-ueber-suche-wissen-wollten

Ergebnis-Funktionen

Field Boosting (Treffer im Titel ist mehr Wert als Treffer im Content. Wertigkeit ist frei de!nierbar.)

Boost-Functions (Funktionen auf Werte aus Dokumenten. Z.B. je neuer ein Dokument, desto höher der Boost auf ein Feld.)

Query-Manipulationen (bevor die Anfrage an Solr übergeben wird, kann dieser noch mal bearbeitet werden.)

Elevation (in Arbeit)

Sonntag, 12. Februar 12

Page 37: Alles was-sie-ueber-suche-wissen-wollten

Ergebnis-Funktionen

Template Engine: Ergebnisdarstellung einfach anpassbar durch "exibles Templating

Suchwort-Hervorhebung

Spell-Checking: "Meinten Sie?"

Common Searches(Tag Cloud bzw. die meistgesuchten Begriffe)

Recent Searches Ähnlich Common Searches: zeigt die letzten durchgeführten Suchen

Sonntag, 12. Februar 12

Page 38: Alles was-sie-ueber-suche-wissen-wollten

Facetten

Typ-Facetten

Autor (z.B. bei News)

Typ (z.B. Seite, News, Aktienkurs, ...)

Bereichs-Facetten (in Arbeit)(z.B. 1-10 EUR oder Slider)

Hierarchische Facetten (Wenn baumartige Strukturen vorliegen, können diese auch als Facette dargestellt werden. z.B. News Kategorien)

Multiple Auswahl von Facettenausprägungen(z.B. Facette Preis 20 EUR & 30 EUR)

Sonntag, 12. Februar 12

Page 39: Alles was-sie-ueber-suche-wissen-wollten

Facetten

Geo-Search (in Arbeit)(z.B. wenn indizierte Elemente geographische Information besitzen. Eine Google Map dient als Interface um alle Treffer innerhalb des sichtbaren Fensters zu zeigen.)

Georelevante Informationen auf Basis der IP-Adresse des Benutzers(z.B. wo ist der nächste Service-Point in meiner Nähe)

Darstellung der Facettenlabel erfolgt als TYPO3 Content Objekt(beliebige Darstellung z.B. über GIFBUILDER möglich)

Filter vorbelegen(bestimmte Facetten können im Vorfeld angewendet werden)

Sonntag, 12. Februar 12

Page 40: Alles was-sie-ueber-suche-wissen-wollten

Analyse

AnalysemöglichkeitenRoadmap

Sonntag, 12. Februar 12

Page 41: Alles was-sie-ueber-suche-wissen-wollten

Analysemöglichkeiten

Query Logging

Statistiken über die Suchanfragen (in Arbeit)

Lernen durch Userinput (in Arbeit)(Wenn User ein Ergebnis anklickt, erhält das Ergebnis Zusatzpunkte.)

Sonntag, 12. Februar 12

Page 42: Alles was-sie-ueber-suche-wissen-wollten

Zusatzkomponenten

Sonntag, 12. Februar 12

Page 43: Alles was-sie-ueber-suche-wissen-wollten

Zusatzkomponenten

Auf einer Ergebnisseite kann über die Nutzung des Index z.B. eine "more like this"-Empfehlung erfolgen um thematisch relevante Themen anzuzeigen.

Eigenentwicklungen, die Zugriff auf die Indexdaten benötigen, möglich

Sonntag, 12. Februar 12

Page 44: Alles was-sie-ueber-suche-wissen-wollten

Konzepte im Detail

ScoringSynonyme

Sonntag, 12. Februar 12

Page 45: Alles was-sie-ueber-suche-wissen-wollten

Scoring

term frequency (tf)Je häufiger ein Term in einem Dokument auftritt, desto höher der Score.

inverse document frequency (idf)Je häufiger ein Term in verschiedenen Dokumenten auftritt, desto geringer sein Score.

number of terms in the query that were found in the document (coord)Je mehr Terme der Suchanfrage im Dokument vorkommen, desto höher sein Score.

Boost

Sonntag, 12. Februar 12

Page 46: Alles was-sie-ueber-suche-wissen-wollten

Scoring - Zusammenfassung

Dokumente, die alle Suchterme enthalten sind gut.

Treffer auf seltene Worte sind besser als Treffer auf häu!ge Worte.

Kurze Dokumente sind besser als lange Dokumente.

Dokumente, die Suchterme mehrfach enthalten sind gut.

Sonntag, 12. Februar 12

Page 47: Alles was-sie-ueber-suche-wissen-wollten

Scoring – Beispiel

Indizierung und Boost verschiedener Felder

Content (z.B. 20x)

Keywords (z.B. 20x)

Seitentitel (z.B. 25x)

Sortierung nach Typ

News kommen z.B. immer am Ende des Suchergebnisses nach allen Seitentreffern

Sonntag, 12. Februar 12

Page 48: Alles was-sie-ueber-suche-wissen-wollten

Synonyme

Werden bei Indizierung erstellt

Können gerichtet sein

Stewardess = Flugbegleiter

Spielwaren => Toy aber Toy #> Spielwaren

Können Ketten bilden

Durch Synonymketten können Suchanfragen sehr ungenau werden

Sonntag, 12. Februar 12

Page 49: Alles was-sie-ueber-suche-wissen-wollten

Synonyme: Beispiel Verkettung

Enjoy Toy Fair City = Messestadt Nürnberg = Kulturangebot = Restaurant = Essen = Bar = Gastrosuche = Kultur = Nürnberg spielt mit = Museum = Einkaufen = Nürnberg = Abendessen = Gasthäuser

Spielwarenmesse = Fachmesse für Spielwaren = Toy Fair = International Toy Fair = Toy Fair Nürnberg = Spielzeugmesse = Spielzeugmesse Nürnberg = Nürnbergmesse für Spielwaren = Spielwarenmesse 2011

Spielzeug = Spielwaren = Spielsachen

Sonntag, 12. Februar 12

Page 50: Alles was-sie-ueber-suche-wissen-wollten

Synonyme: Beispiel Verkettung

Suche nach: “Restaurant”

Restaurant = Enjoy Toy Fair City

Enjoy Toy Fair City = Enjoy Fachmesse für Spielwaren City

Enjoy Fachmesse Spielwaren City = Enjoy Fachmesse Spielzeug City

Sonntag, 12. Februar 12

Page 51: Alles was-sie-ueber-suche-wissen-wollten

Synonyme: Beispiel Verkettung

Die resultierende Suchanfrage (nicht komplett):

Enjoy Toy Fair City Messestadt Nürnberg Kulturangebot Restaurant Essen Bar Gastrosuche Kultur spielt Museum Einkaufen Abendessen Gasthäuser Spielwarenmesse Fachmesse International Spielzeugmesse Nürnbergmesse 2011 Spielzeug Spielwaren Spielsachen

Sonntag, 12. Februar 12

Page 52: Alles was-sie-ueber-suche-wissen-wollten

Synonyme: Seiteneffekte

Beispiel Synonymsuche

TV = Television

Im Index ca. 1.000 Dokumente mit “TV”

Im Index ca. 50 Dokumente mit “Television”

Suche nach “TV” bringt Dokumente mit “Television” nach vorne, da “bessere Treffer”

Sonntag, 12. Februar 12

Page 53: Alles was-sie-ueber-suche-wissen-wollten

d dkdevelopmentkommunikationdesign

sagt danke.

Sonntag, 12. Februar 12

Page 54: Alles was-sie-ueber-suche-wissen-wollten

Quellenangaben

Lucene Scoring for dummies: http://www.supermind.org/blog/378/lucene-scoring-for-dummies

Fotos: Søren Schaffstein

Sonntag, 12. Februar 12