Upload
andre-hagenbruch
View
1.096
Download
1
Embed Size (px)
Citation preview
Universitätsbibliothek
Projekt Integriertes Bibliotheksportal
Integration von Apache Solr in TouchPoint
Universitätsbibliothek
Projekt Integriertes Bibliotheksportal
RUHR-UNIVERSITÄT BOCHUM
Was ist Lucene?
Integration von Apache Solr in TouchPoint
(Java-)Framework zum Indizieren und Suchen
Doug Cutting (@cutting)
März 2000
Aktuell: Version 3.0.1 (26.2.2010)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Was ist Solr?
Integration von Apache Solr in TouchPoint
Schnelles, skalierbares Enterprise-Suchsystem
Yonik Seeley (@lucene_solr)
Ende 2004: CNET
Anfang 2006: Apache Projekt
Aktuell: Version 1.4 (10.11.2009)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Was ist Lucene/Solr?
Integration von Apache Solr in TouchPoint
Seit 15. März 2010: Lucene- und Solr-Code und -Infrastrukturen verschmelzen
Engere Koordination zwischen der Entwicklung von Lucene und Solr
Neue Lucene-Funktionalitäten schneller in Solr
Kürzere Release-Zyklen für Solr
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
RESTful API
Administrationsoberfläche; Monitoring über JMX
Konfiguration über XML-Dateien
Erweiterbar durch Plugin-Architektur
Konfigurier- und erweiterbares Caching
Skalierbar durch verteilte Indizes auf mehreren Rechnern
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
Daten-Schema mit
numerischen Typen
eigenem Datums-Typ
dynamischen Feldern
eindeutigem Schlüssel pro Dokument (auch UUID als Feld-Typ)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
Sprachliche Analyse
Unterschiedliche Tokenizer (Leerraum, HTML, N-Gramme...)
Filterung mit regulären Ausdrücken, phonetische Filter
Porter-/Snowball-Stemmer für verschiedene Sprachen
Stop-Wortlisten, Synonymlisten
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
(Multiple) Navigatoren und Filter
Hervorheben von Suchtermen
Rechtschreibvorschläge
Vorschläge für ähnliche Treffer
Clustering von Suchergebnissen
„Redaktionelles Ranking“ (aka „Best Bet“)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
Einfaches XML-Format zum Indizieren
Weitere Handler:
CSVRequestHandler
DataImportHandler (FieldReaderDataSource, FileDataSource, URLDataSource, JdbcDataSource)
Solr Cell (= Apache Tika: Microsoft Office, PDF, ODF, RTF, HTML, XML, EPub, mbox...)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Skalierbarkeit von Solr
Integration von Apache Solr in TouchPoint
UB Bochum: ca. 2,3 Mio Datensätze
Beluga: ca. 4,7 Mio Datensätze
Nationallizenzen: ca. 22 Mio Datensätze
„Wir verarbeiten aktuell im Tagesdurchschnitt etwas mehr als 4 Such-Requests pro Sekunde (in Solr) und die Kiste langweilt sich zu Tode.“
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Skalierbarkeit von Solr
Integration von Apache Solr in TouchPoint
Hathi Trust: ca. 5,3 Mio Volltexte (18.2.2010)
Durchschnittliche Antwortzeit: 3 Sek, 90% der Anfragen in 4 Sekunden, 9% zwischen 4 und 24 Sek und 1% länger als 24 Sek
Hardware: 4 Suchserver mit 1 Tomcat (16 GB Heapspace) und je 3 „Partitionen“; 10 Partitionen aktiv1 Indexserver mit 12 Tomcats (jeweils 6 GB Heapspace) und 12 Partitionen; 10 Partitionen aktiv
Informationen: http://www.hathitrust.org/blogs/large-scale-search
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Flankierende Technologien
Integration von Apache Solr in TouchPoint
solrmarc (http://code.google.com/p/solrmarc/)
Apache Nutch (http://lucene.apache.org/nutch/)
Alias-I LingPipe (http://alias-i.com/lingpipe/)
carrot2 (http://project.carrot2.org/)
Apache Mahout (http://lucene.apache.org/mahout/)
Apache Hadoop (http://hadoop.apache.org/)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Support für Solr
Integration von Apache Solr in TouchPoint
Lucidworks Certified Distribution For Solr
Installer
Zusätzliche Stemmer-Klassen
Lucene Index Toolbox (Luke)
LucidGaze for Solr
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Solr-Dokumentation
Integration von Apache Solr in TouchPoint
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Integration in TouchPoint
Integration von Apache Solr in TouchPoint
Code-Basis: InfoGuide mit einer Schnittstelle für generische Datenquellen
Implementierung von
GenericServer,
ResultHitlist,
Result,
DrillDowns,
MoreLikeThis...
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Vielen Dank für Ihre Aufmerksamkeit!
Fragen?
Integration von Apache Solr in TouchPoint
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
Bildnachweis
Integration von Apache Solr in TouchPoint
Titel: http://www.flickr.com/photos/59303791@N00/168921732/
LucidWorks Reference: http://www.lucidimagination.com/Downloads/LucidWorks-for-Solr/Reference-Guide
Lucene in Action: http://www.manning.com/hatcher3/
Taming Text: http://www.manning.com/ingersoll/
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM