18
Sunday, June 17, 2012 1 Indexing Pipeline (de) Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger

Searchperience Indexierungspipeline

  • Upload
    aoe

  • View
    606

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 1

Indexing Pipeline (de)

Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger

Page 2: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 2

Über SearchperienceKurzer Überblick

Eine eigenständige Suchfunktion für Webseiten und Online-Shops

Basierend auf hochleistungsfähiger Open Source Apache Solr Technologie

SaaS Cloud ServiceUnd weil es ein Erlebnis für die Benutzer und nicht nur eine Suche ist, nennen wir es Searchperience!

Page 3: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 3

Searchperience Komponenten

SearchperienceIndexer

CMS +SearcherIndex

SOLR CloudQuery Processing

Result Processing

Facetted SearchFuzzy SearchLivesuggestSearch Widgets

RichData

UnstructuredData

StructuredData

Search Analytics

Pipeline

Page 4: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 4

What is an Indexing Pipeline?

StructuredData

UnstructuredData

RichData

Pipeline

„Garbage In, Garbage Out“ - Also müssen wir das meiste aus den Daten „rausholen“

Die abhängigen Einzelschritte in einer Indexierungspipeline bereiten ein Dokument für den Suchindex vor: Dokumentenfelder mit extrahierten

und ermittelten Inhalten Dokumentenwichtigkeit (Boost) ausgehende Relationen (Links)

Intelligente und manuelle Anreicherung Filterung, Statistiken, skalierbare

Ausführung...

Page 5: Searchperience   Indexierungspipeline

Indexer Processes

Sunday, June 17, 2012 5

Indexer Architecture

Documents + Relations

Crawler Queue

LinkQueue

Enrichment

Crawler

Indexer

PageRank Calc

...

API

Indexer „Database“

Page 6: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 6

An Indexer Example Pipeline

Conditional Subpipes: „Check Document mimetype and source ..etc“

is product page? is job page? is not „text/*“ mimetype?

XHTML Extracter „Extract content and product data“

Enrich by Feed „add price from SAP feed“

Add Boost +40

XHTML Extracter „Extract Joboffer data“

Get rating from qype

Tika Extracter „Extract rich content“

Detect language

Thesaurus Expansion

Pagerank EvaluationSearchperience Enrichments

...

Image Analysis

Page 7: Searchperience   Indexierungspipeline

Sunday, June 17, 2012

XML Extracter XHTML Extracter Tika Extracter Custom Extracter

7

Indexer Pipeline Steps Different Extracters

Page 8: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 8

Indexer Pipeline Steps Language Detection

Spracherkennung an Hand Text

langdetect“ Open Source mit entsprechenden Lerndaten

Page 9: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 9

Indexer Pipeline Steps Thesaurus Expansion

Suche nach „Drahtesel“ findet auch „Fahrräder“

Verschiedene Thesauri können nach Spracherkennung oder Dokumententyp eingesetzt werden um gezielt Inhalte mit ihren Synonymen zu erweitern

Page 10: Searchperience   Indexierungspipeline

Sunday, June 17, 2012

Nutzt TFIDF werte für das Dokument in Bezug auf den aktuellen Index

Beispielsweise genutzt für Keyword Boosting und Personalisierung

10

Indexer Pipeline Steps Interesting Terms

Barack Obama

Navigation

Eurokrise

Page 11: Searchperience   Indexierungspipeline

Sunday, June 17, 2012

Open NLP Open Calais

Named Entity Recognition Anreicherung mit Daten aus

dem sematic Web (Wikipedia...)

11

Indexer Pipeline Steps NLP & Semantic Extraction

Person: Barack Obama

City: Berlin

Time: 9.11.2001

Page 12: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 12

Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing

Auswertung des

Nutzerverhalten

beeinflusst

Dokumenten

Keywords und

Dokumenten-

wichtigkeit

Page 13: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 13

Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing

Manuelle Auslese und Anreicherung...

Page 14: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 14

Indexer Pipeline Steps Anreicherungspflege für Suchadministratoren

Regelbasierte

Keywort

Anreicherung

und Boosting-

manipulation

Page 15: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 15

Indexer Pipeline Steps Kontrolle auf Dokumentenebene

Dokumente

Boosten,

Prominent

darstellen oder

sperren

Page 16: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 16

SOLR is not an Indexing Pipeline

Es gibt einfache Konzepte (UpdateChain / LangDetect / ExtractingRequestHandler)

Keine richtigen abhängigen Auswertungen / Unflexibel

Kein Framework für eigene Pipeline-Steps

Keine testgeriebene Pipeline Konfiguration möglich

Skalierung und Verteilung der Indexierung

Gute Auffindbarkeit braucht flexible Kontrolle

Page 18: Searchperience   Indexierungspipeline

Sunday, June 17, 2012 18

Vielen Dank!Fragen?