Upload
aoe
View
153
Download
1
Embed Size (px)
DESCRIPTION
Jun 27, 2012
Citation preview
Sunday, June 17, 2012 1
Indexing Pipeline (de)
Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
Sunday, June 17, 2012 2
Über SearchperienceKurzer Überblick
Eine eigenständige Suchfunktion für Webseiten und Online-Shops
Basierend auf hochleistungsfähiger Open Source Apache Solr Technologie
SaaS Cloud ServiceUnd weil es ein Erlebnis für die Benutzer und nicht nur eine Suche ist, nennen wir es Searchperience!
Sunday, June 17, 2012 3
Searchperience Komponenten
SearchperienceIndexer
CMS +SearcherIndex
SOLR CloudQuery Processing
Result Processing
Facetted SearchFuzzy SearchLivesuggestSearch Widgets
RichData
UnstructuredData
StructuredData
Search Analytics
Pipeline
Sunday, June 17, 2012 4
What is an Indexing Pipeline?
StructuredData
UnstructuredData
RichData
Pipeline
„Garbage In, Garbage Out“ - Also müssen wir das meiste aus den Daten „rausholen“
Die abhängigen Einzelschritte in einer Indexierungspipeline bereiten ein Dokument für den Suchindex vor: Dokumentenfelder mit extrahierten
und ermittelten Inhalten Dokumentenwichtigkeit (Boost) ausgehende Relationen (Links)
Intelligente und manuelle Anreicherung Filterung, Statistiken, skalierbare
Ausführung...
Indexer Processes
Sunday, June 17, 2012 5
Indexer Architecture
Documents + Relations
Crawler Queue
LinkQueue
Enrichment
Crawler
Indexer
PageRank Calc
...
API
Indexer „Database“
Sunday, June 17, 2012 6
An Indexer Example Pipeline
Conditional Subpipes: „Check Document mimetype and source ..etc“
is product page? is job page? is not „text/*“ mimetype?
XHTML Extracter „Extract content and product data“
Enrich by Feed „add price from SAP feed“
Add Boost +40
XHTML Extracter „Extract Joboffer data“
Get rating from qype
Tika Extracter „Extract rich content“
Detect language
Thesaurus Expansion
Pagerank EvaluationSearchperience Enrichments
...
Image Analysis
Sunday, June 17, 2012
XML Extracter XHTML Extracter Tika Extracter Custom Extracter
7
Indexer Pipeline Steps Different Extracters
Sunday, June 17, 2012 8
Indexer Pipeline Steps Language Detection
Spracherkennung an Hand Text
langdetect“ Open Source mit entsprechenden Lerndaten
Sunday, June 17, 2012 9
Indexer Pipeline Steps Thesaurus Expansion
Suche nach „Drahtesel“ findet auch „Fahrräder“
Verschiedene Thesauri können nach Spracherkennung oder Dokumententyp eingesetzt werden um gezielt Inhalte mit ihren Synonymen zu erweitern
Sunday, June 17, 2012
Nutzt TFIDF werte für das Dokument in Bezug auf den aktuellen Index
Beispielsweise genutzt für Keyword Boosting und Personalisierung
10
Indexer Pipeline Steps Interesting Terms
Barack Obama
Navigation
Eurokrise
Sunday, June 17, 2012
Open NLP Open Calais
Named Entity Recognition Anreicherung mit Daten aus
dem sematic Web (Wikipedia...)
11
Indexer Pipeline Steps NLP & Semantic Extraction
Person: Barack Obama
City: Berlin
Time: 9.11.2001
Sunday, June 17, 2012 12
Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing
Auswertung des
Nutzerverhalten
beeinflusst
Dokumenten
Keywords und
Dokumenten-
wichtigkeit
Sunday, June 17, 2012 13
Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing
Manuelle Auslese und Anreicherung...
Sunday, June 17, 2012 14
Indexer Pipeline Steps Anreicherungspflege für Suchadministratoren
Regelbasierte
Keywort
Anreicherung
und Boosting-
manipulation
Sunday, June 17, 2012 15
Indexer Pipeline Steps Kontrolle auf Dokumentenebene
Dokumente
Boosten,
Prominent
darstellen oder
sperren
Sunday, June 17, 2012 16
SOLR is not an Indexing Pipeline
Es gibt einfache Konzepte (UpdateChain / LangDetect / ExtractingRequestHandler)
Keine richtigen abhängigen Auswertungen / Unflexibel
Kein Framework für eigene Pipeline-Steps
Keine testgeriebene Pipeline Konfiguration möglich
Skalierung und Verteilung der Indexierung
Gute Auffindbarkeit braucht flexible Kontrolle
Sunday, June 17, 2012 17
SOLR is not an Indexing Pipeline
Der Searchperience Indexer hat eine eigenentwickelte Crawling und Indexierungs- Architektur, und stellt ein Kernbestandteil der Lösung dar.
Andere Lösungen
Pipeline Projects
Open Pipe UIMA https://docs.google.com/
spreadsheet/ccc?key=0ApsMZSogVbD9dERlRlAyZXpES0JJNjVJaFlLQVN5UXc#gid=0
Sunday, June 17, 2012 18
Vielen Dank!Fragen?