2
Rosette für Solr LÖSUNGEN Entwicklung kosteneffizienter mehrsprachiger Suchmaschinen unter Verwendung von Open Source Komponenten Die in führenden Suchmaschinen wie Google, Bing und Yahoo! verwendete multilinguale Textanalyse steht nun auch der rasch wachsenden Gemeinde von Software- Entwicklern zur Verfügung, die ihre Anwendungen auf Basis der populären Plattformen Lucene-Solr bauen, beides Projekte der Apache Software Foundation. Apache Solr ist ein quelloffener Server für Suchanwendungen mit XML/HTTP und JSON APIs, Trefferkennzeichnung, facettierter Suche, Caching, Replikation, RDBMS Integration und Web-Schnittstelle für die Administration. Eine Schlüsselkomponente von Solr stellt Apache Lucene dar, eine quelloffene Bibliothek für Informationsgewinnung, ursprünglich geschrieben in Java, mittlerweile auch verfügbar in anderen Prgrammiersprachen wie Delphi, Perl, C#, C++, Python, Ruby und PHP. Von Lucene erzeugte Indexe sind über Plattformen hinweg portabel und vereinfachen deswegen die Nutzung neuer Funktionen in Hardware und Betriebssystemen bei gleichzeitiger Kostenminimierung für Upgrades der Suchanwendung. Heutzutage werden tausende großer Suchmaschinen auf Basis von Lucene-Solr betrieben, z.B. bei CNET, IBM, Netflix und Wikipedia. ERSTE SCHRITTE MIT ROSETTE & SOLR Rosette lässt sich rasch in neue oder bereits existierende Solr-Projekte integrieren und ermöglicht damit den Zugang zu robusten und präzisen mehrsprachigen Suchfunktionen in wenigen Tagen denn in Wochen oder Monaten. Um zu beginnen wird einfach das Rosette SDK bzw. Laufzeitpaket geladen und installiert. Das Rosette SDK ermöglicht erweiterte multilinguale Verarbeitung von Textfeldern mit nur minimalen Konfiguartionsänderungen. Darüberhinaus ist kein zusätzlicher Aufwand erforderlich für die Solr-Suche in den von Rosette unterstützten Sprachen. Solr — Suchplattform Lucene — Bibliothek für Volltextsuche Filteranfragen Dokumente Kontext Verfeinerung Suchanfragen Suchresultate Browser-basierte Benutzerschnittstelle Multilingualer Token-Index Rosette Base Linguistics Dokument Indexer Rosette Language Identifier Facettierte Navigation Rosette Entity Extractor Suchmaschine und Ergebnisformattierer MEHRSPRACHIGE SUCHE Rosette stellt eine Reihe linguistischer Funktionen bereit, die Voraussetzung sind für die Implementierung multilingualer Suchmaschinen: Sprachenerkennung—Automatische Identifizierung von Sprachen und Schriftarten Segmentierung/Tokenisierung—Bestimmung der Grenzen lexikaler Tokens einschließlich Satzzeichen und spezieller Zeichen Lemmatisierung—Ableitung der lexikalen Grundform flektierter Verben und Adjektive Dekomposition von Nomina—Trennung zusammengesetzter Substantive in die einzelnen Komponenten zur Erhöhung der Suchrelevanz Wortartenerkennung—Bestimmung der grammatikalischen Funktion jedes einzelnen Wortes, z.B. Nomen, Verb, Präposition, etc. Nominalphrasenerkennung asiatische Tokenisierung NP NC NN NM NC NT V NP NC A V Wortartenerkennung

Rosette für Solr - basistech.jp · Basis der populären Plattformen Lucene-Solr bauen, beides Projekte der Apache Software Foundation. Apache Solr ist ein quelloffener Server für

Embed Size (px)

Citation preview

Page 1: Rosette für Solr - basistech.jp · Basis der populären Plattformen Lucene-Solr bauen, beides Projekte der Apache Software Foundation. Apache Solr ist ein quelloffener Server für

Rosette für Solr

LÖSUNGEN

Entwicklung kosteneffizientermehrsprachiger Suchmaschinenunter Verwendung von OpenSource KomponentenDie in führenden Suchmaschinen wie Google, Bing undYahoo! verwendete multilinguale Textanalyse steht nunauch der rasch wachsenden Gemeinde von Software-Entwicklern zur Verfügung, die ihre Anwendungen aufBasis der populären Plattformen Lucene-Solr bauen, beidesProjekte der Apache Software Foundation.

Apache Solr ist ein quelloffener Server fürSuchanwendungen mit XML/HTTP und JSON APIs,Trefferkennzeichnung, facettierter Suche, Caching,Replikation, RDBMS Integration und Web-Schnittstelle fürdie Administration. Eine Schlüsselkomponente von Solrstellt Apache Lucene dar, eine quelloffene Bibliothekfür Informationsgewinnung, ursprünglich geschriebenin Java, mittlerweile auch verfügbar in anderenPrgrammiersprachen wie Delphi, Perl, C#, C++, Python,Ruby und PHP. Von Lucene erzeugte Indexe sindüber Plattformen hinweg portabel und vereinfachendeswegen die Nutzung neuer Funktionen in Hardware undBetriebssystemen bei gleichzeitiger Kostenminimierung fürUpgrades der Suchanwendung.

Heutzutage werden tausende großer Suchmaschinen aufBasis von Lucene-Solr betrieben, z.B. bei CNET, IBM, Netflixund Wikipedia.

ERSTE SCHRITTE MIT ROSETTE & SOLRRosette lässt sich rasch in neue oder bereits existierendeSolr-Projekte integrieren und ermöglicht damit den Zugangzu robusten und präzisen mehrsprachigen Suchfunktionenin wenigen Tagen denn in Wochen oder Monaten. Um zubeginnen wird einfach das Rosette SDK bzw. Laufzeitpaketgeladen und installiert. Das Rosette SDK ermöglichterweiterte multilinguale Verarbeitung von Textfeldern mitnur minimalen Konfiguartionsänderungen. Darüberhinausist kein zusätzlicher Aufwand erforderlich für die Solr-Suchein den von Rosette unterstützten Sprachen.

Solr — Suchplattform

Lucene — Bibliothek für Volltextsuche

Filteranfragen

Dokumente

KontextVerfeinerung Suchanfragen Suchresultate

Browser-basierte Benutzerschnittstelle

MultilingualerToken-Index

RosetteBaseLinguistics

DokumentIndexer

RosetteLanguageIdentifier

FacettierteNavigation

RosetteEntityExtractor

Suchmaschine undErgebnisformattierer

MEHRSPRACHIGE SUCHERosette stellt eine Reihe linguistischer Funktionen bereit, dieVoraussetzung sind für die Implementierung multilingualerSuchmaschinen:

• Sprachenerkennung—Automatische Identifizierung vonSprachen und Schriftarten

• Segmentierung/Tokenisierung—Bestimmung derGrenzen lexikaler Tokens einschließlich Satzzeichen undspezieller Zeichen

• Lemmatisierung—Ableitung der lexikalen Grundformflektierter Verben und Adjektive

• Dekomposition von Nomina—Trennungzusammengesetzter Substantive in die einzelnenKomponenten zur Erhöhung der Suchrelevanz

• Wortartenerkennung—Bestimmung dergrammatikalischen Funktion jedes einzelnen Wortes,z.B. Nomen, Verb, Präposition, etc.

Nominalphrasenerkennung

asiatische Tokenisierung

NP NC NN NM NC NT V NP NC A V

Wortartenerkennung

Page 2: Rosette für Solr - basistech.jp · Basis der populären Plattformen Lucene-Solr bauen, beides Projekte der Apache Software Foundation. Apache Solr ist ein quelloffener Server für

INTERNET www.basistech.com EMAIL [email protected] TELEFON +1-617-386-2090

One Alewife CenterCambridge, MA 02140

171 Second StreetSan Francisco, CA 94105

1 Furzeground WayMiddlesex UB11 1BD, UK

9-6 Nibancho, Chiyoda-kuTokyo 102-0084, Japan

© 2013 Basis Technology Corporaon. “Basis Technology”, “Geoscope”, “Odyssey Digital Forensics”, “Rosee”, and “We put the World in the World Wide Web” are registeredtrademarks of Basis Technology Corporaon. All other trademarks, service marks, and logos used in this document are the property of their respecve owners. (2013-01-04)

ÜBER SUCHE HINAUSGEHENDE FUNKTIONENRosette beinhaltet die vollständigste Sammlung erweiterterlinguistischer Eigenschaften in einem einheitlichen Rahmen:

• Sprachgrenzenerkennung—Indentifizierung dereinzelnen Sprachsegmente und des passendenAnalyzers in einem gemischtsprachigen Text

• Satzgrenzenerkennung—Lokalisierung von Anfang undEnde einzelner Sätze eines Sprachsegments

• Nominalphrasenerkennung—Erkennung vonWortfolgen, die eine Nominalphrase bilden

• Entfernung von Stoppwörtern—Reduzierung derGröße des Indexes durch Eliminierung von 'Rauschen'

• Benutzerspezifische Wörterbücher—Anreicherungvon Standardwörterbüchern mittels Listen speziellerAusdrücke

• Schriftartenübersetzer für Chinesisisch—Implentierung einer schriftübergreifenden Suchemittels Übersetzung der Suchbegriffe zwischenvereinfachtem und traditionellem Schriftsystem.Die Übersetzungsmaschine ist dabei in der Lage,Abweichungen auf Zeichen- und Wortebene zubehandeln.

• Orthografischer Normalisierer für Japanisch—Implementierung erweiterter Suchmöglichkeitendurch Erkennung und Normalisierung orthografischerVariationen

Rosette beinhaltet eine Vielzahl von Algorithmen, so daß diejeweils beste Implementierung für die spezifische Sprachegewählt werden kann. Die Kombination lexikalischer Daten,heuristischer Regeln und statistischer Modelle sicherteine ausgewogene Balance zwischen Geschwindigkeit undGenauigkeit jeder einzelnen Anwendung.

APACHE SOLR PERFORMANZ &SKALIERBARKEITDie breite Palette technischer Eigenschaften und derenNutzen war früher ausschließlich teuren, proprietärenVolltext-Suchmaschinen vorbehalten:

• plattform-übergreifend: Windows, Linux, Unix, MacOS• geringe Speicheranforderungen• Inkrementelles Indexieren ähnlich schnell wie in Batch-

Verarbeitung• Indexgröße 20% bis 30% des originalen Textes• leistungsfähige Such- und Ranking-Algorithmen

Lemma: beginnenDecompound: Fließband,Produktion Lemma: Fahrzeug

Decompound: Masse, Fertigung

Stem: erschwinglich Stem: Automobil

UNTERSTÜTZTE SPRACHENDie Programmierung erfolgt über eine einheitliche, enggekoppelte Programmierschnittstelle:

AlbanischArabischBulgarischChinesisch (einf.)Chinesisch (trad.)DänischDeutschEnglischEstnischFinnischFranzösischGriechischHebräischHolländisch

IndonesischItalienischJapanischKatalanischKoreanischKroaschLeschMalaiischNorwegischPaschtoPersischPolnischPortugiesischRumänisch

RussischSchwedischSerbischSlowakischSlowenischSpanischThailändischTschechischTürkischUkrainischUngarischUrdu

UNTERSTÜTZE PLATTFORMENSoftware-Entwickler-Kits (SDKs) sind für diemeisten gängigen Betriebssysteme, Prozessoren undEntwicklerwerkzeuge verfügbar. Bitte kontaktieren Sie unsfür Plattformen, die in der folgenden Liste gegebenenfallsnicht enthalten sind.

AIX 6.1, PPCHP-UX 11i, IA64Linux CentOS 5.x/6.x, IA32/AMD64Linux Debian 5.x/6.x, IA32/AMD64Linux Red Hat 5.x/6.x, IA32/AMD64

Linux Ubuntu 11.x/12.x, IA32/AMD64MacOSSolaris 10/11, SPARC32/64, IA32/AMD64Windows XP/Vista/7, IA32/AMD64Windows Server 2003, 2008

NÄCHSTE SCHRITTEFür zusätzliche Informationen oder eine Produktevaluierungkontaktieren Sie uns bitte unter +1-617-386-2090 oderschreiben Sie an [email protected]. Gerne unterstützenwir Sie bei der Evaluierung unserer Produkte an Ihrenspezifischen Daten.