Rosette für Solr - basistech.jp · Basis der populären Plattformen Lucene-Solr bauen, beides...

Preview:

Citation preview

Rosette für Solr

LÖSUNGEN

Entwicklung kosteneffizientermehrsprachiger Suchmaschinenunter Verwendung von OpenSource KomponentenDie in führenden Suchmaschinen wie Google, Bing undYahoo! verwendete multilinguale Textanalyse steht nunauch der rasch wachsenden Gemeinde von Software-Entwicklern zur Verfügung, die ihre Anwendungen aufBasis der populären Plattformen Lucene-Solr bauen, beidesProjekte der Apache Software Foundation.

Apache Solr ist ein quelloffener Server fürSuchanwendungen mit XML/HTTP und JSON APIs,Trefferkennzeichnung, facettierter Suche, Caching,Replikation, RDBMS Integration und Web-Schnittstelle fürdie Administration. Eine Schlüsselkomponente von Solrstellt Apache Lucene dar, eine quelloffene Bibliothekfür Informationsgewinnung, ursprünglich geschriebenin Java, mittlerweile auch verfügbar in anderenPrgrammiersprachen wie Delphi, Perl, C#, C++, Python,Ruby und PHP. Von Lucene erzeugte Indexe sindüber Plattformen hinweg portabel und vereinfachendeswegen die Nutzung neuer Funktionen in Hardware undBetriebssystemen bei gleichzeitiger Kostenminimierung fürUpgrades der Suchanwendung.

Heutzutage werden tausende großer Suchmaschinen aufBasis von Lucene-Solr betrieben, z.B. bei CNET, IBM, Netflixund Wikipedia.

ERSTE SCHRITTE MIT ROSETTE & SOLRRosette lässt sich rasch in neue oder bereits existierendeSolr-Projekte integrieren und ermöglicht damit den Zugangzu robusten und präzisen mehrsprachigen Suchfunktionenin wenigen Tagen denn in Wochen oder Monaten. Um zubeginnen wird einfach das Rosette SDK bzw. Laufzeitpaketgeladen und installiert. Das Rosette SDK ermöglichterweiterte multilinguale Verarbeitung von Textfeldern mitnur minimalen Konfiguartionsänderungen. Darüberhinausist kein zusätzlicher Aufwand erforderlich für die Solr-Suchein den von Rosette unterstützten Sprachen.

Solr — Suchplattform

Lucene — Bibliothek für Volltextsuche

Filteranfragen

Dokumente

KontextVerfeinerung Suchanfragen Suchresultate

Browser-basierte Benutzerschnittstelle

MultilingualerToken-Index

RosetteBaseLinguistics

DokumentIndexer

RosetteLanguageIdentifier

FacettierteNavigation

RosetteEntityExtractor

Suchmaschine undErgebnisformattierer

MEHRSPRACHIGE SUCHERosette stellt eine Reihe linguistischer Funktionen bereit, dieVoraussetzung sind für die Implementierung multilingualerSuchmaschinen:

• Sprachenerkennung—Automatische Identifizierung vonSprachen und Schriftarten

• Segmentierung/Tokenisierung—Bestimmung derGrenzen lexikaler Tokens einschließlich Satzzeichen undspezieller Zeichen

• Lemmatisierung—Ableitung der lexikalen Grundformflektierter Verben und Adjektive

• Dekomposition von Nomina—Trennungzusammengesetzter Substantive in die einzelnenKomponenten zur Erhöhung der Suchrelevanz

• Wortartenerkennung—Bestimmung dergrammatikalischen Funktion jedes einzelnen Wortes,z.B. Nomen, Verb, Präposition, etc.

Nominalphrasenerkennung

asiatische Tokenisierung

NP NC NN NM NC NT V NP NC A V

Wortartenerkennung

INTERNET www.basistech.com EMAIL info@basistech.com TELEFON +1-617-386-2090

One Alewife CenterCambridge, MA 02140

171 Second StreetSan Francisco, CA 94105

1 Furzeground WayMiddlesex UB11 1BD, UK

9-6 Nibancho, Chiyoda-kuTokyo 102-0084, Japan

© 2013 Basis Technology Corporaon. “Basis Technology”, “Geoscope”, “Odyssey Digital Forensics”, “Rosee”, and “We put the World in the World Wide Web” are registeredtrademarks of Basis Technology Corporaon. All other trademarks, service marks, and logos used in this document are the property of their respecve owners. (2013-01-04)

ÜBER SUCHE HINAUSGEHENDE FUNKTIONENRosette beinhaltet die vollständigste Sammlung erweiterterlinguistischer Eigenschaften in einem einheitlichen Rahmen:

• Sprachgrenzenerkennung—Indentifizierung dereinzelnen Sprachsegmente und des passendenAnalyzers in einem gemischtsprachigen Text

• Satzgrenzenerkennung—Lokalisierung von Anfang undEnde einzelner Sätze eines Sprachsegments

• Nominalphrasenerkennung—Erkennung vonWortfolgen, die eine Nominalphrase bilden

• Entfernung von Stoppwörtern—Reduzierung derGröße des Indexes durch Eliminierung von 'Rauschen'

• Benutzerspezifische Wörterbücher—Anreicherungvon Standardwörterbüchern mittels Listen speziellerAusdrücke

• Schriftartenübersetzer für Chinesisisch—Implentierung einer schriftübergreifenden Suchemittels Übersetzung der Suchbegriffe zwischenvereinfachtem und traditionellem Schriftsystem.Die Übersetzungsmaschine ist dabei in der Lage,Abweichungen auf Zeichen- und Wortebene zubehandeln.

• Orthografischer Normalisierer für Japanisch—Implementierung erweiterter Suchmöglichkeitendurch Erkennung und Normalisierung orthografischerVariationen

Rosette beinhaltet eine Vielzahl von Algorithmen, so daß diejeweils beste Implementierung für die spezifische Sprachegewählt werden kann. Die Kombination lexikalischer Daten,heuristischer Regeln und statistischer Modelle sicherteine ausgewogene Balance zwischen Geschwindigkeit undGenauigkeit jeder einzelnen Anwendung.

APACHE SOLR PERFORMANZ &SKALIERBARKEITDie breite Palette technischer Eigenschaften und derenNutzen war früher ausschließlich teuren, proprietärenVolltext-Suchmaschinen vorbehalten:

• plattform-übergreifend: Windows, Linux, Unix, MacOS• geringe Speicheranforderungen• Inkrementelles Indexieren ähnlich schnell wie in Batch-

Verarbeitung• Indexgröße 20% bis 30% des originalen Textes• leistungsfähige Such- und Ranking-Algorithmen

Lemma: beginnenDecompound: Fließband,Produktion Lemma: Fahrzeug

Decompound: Masse, Fertigung

Stem: erschwinglich Stem: Automobil

UNTERSTÜTZTE SPRACHENDie Programmierung erfolgt über eine einheitliche, enggekoppelte Programmierschnittstelle:

AlbanischArabischBulgarischChinesisch (einf.)Chinesisch (trad.)DänischDeutschEnglischEstnischFinnischFranzösischGriechischHebräischHolländisch

IndonesischItalienischJapanischKatalanischKoreanischKroaschLeschMalaiischNorwegischPaschtoPersischPolnischPortugiesischRumänisch

RussischSchwedischSerbischSlowakischSlowenischSpanischThailändischTschechischTürkischUkrainischUngarischUrdu

UNTERSTÜTZE PLATTFORMENSoftware-Entwickler-Kits (SDKs) sind für diemeisten gängigen Betriebssysteme, Prozessoren undEntwicklerwerkzeuge verfügbar. Bitte kontaktieren Sie unsfür Plattformen, die in der folgenden Liste gegebenenfallsnicht enthalten sind.

AIX 6.1, PPCHP-UX 11i, IA64Linux CentOS 5.x/6.x, IA32/AMD64Linux Debian 5.x/6.x, IA32/AMD64Linux Red Hat 5.x/6.x, IA32/AMD64

Linux Ubuntu 11.x/12.x, IA32/AMD64MacOSSolaris 10/11, SPARC32/64, IA32/AMD64Windows XP/Vista/7, IA32/AMD64Windows Server 2003, 2008

NÄCHSTE SCHRITTEFür zusätzliche Informationen oder eine Produktevaluierungkontaktieren Sie uns bitte unter +1-617-386-2090 oderschreiben Sie an info@basistech.com. Gerne unterstützenwir Sie bei der Evaluierung unserer Produkte an Ihrenspezifischen Daten.

Recommended