4
KUNDENREFERENZ SEMANTISCHE SUCHE @ ZEIT ONLINE Automatische Verschlagwortung für neue und archivierte redaktionelle Inhalte und qualitative Verbesserung der Suchqualität im Portal www.zeit.de KUNDENPROFIL ZEIT ONLINE zählt zu den innova- tivsten deutschen Nachrichtenportalen. Auf der Plattform www.zeit.de stellt das Unternehmen seinen Lesern minutenaktuelle Nachrichten aus verschiedensten Themengebieten sowie das Archiv der Wochenzeitung DIE ZEIT (Auflage: ca. 500.000 ver- kaufte Exemplare) zur Verfügung. Die Online-Redaktion mit Sitz in Berlin berichtet seit 1996 aus den Themenbereichen Politik, Wirtschaft, Kultur, Wissenschaft und vielen anderen. Neben Hintergrundinformationen und Themenschwerpunkten bietet ZEIT ONLINE ihren Lesern auch die Möglichkeit, sich in Form von Kommentaren und Beiträgen aktiv zu beteiligen. HERAUSFORDERUNG Das umfangreiche Archiv von ZEIT ONLINE umfasst Artikel vom Gründungs- jahr der Wochenzeitung DIE ZEIT (1946) bis in die Gegenwart. Um den Zugang zu dieser umfangreichen Wissensbasis für den Benutzer bestmöglich zu gestalten, reichen allerdings die Funktionalitäten einer einfachen Volltextsuche nicht aus. ZEIT ONLINE versieht deshalb bereits seit Jahren jeden neuen Artikel mit passenden thematischen Schlagwörtern bzw. Themenklassen – diese Tätigkeit erfolgt ausschließlich manuell durch Redakteure. Die zusätzlichen Annota- tionen ermöglichen einen besseren Zugang zu den gewünschten Informa- tionen und dienen zudem einer effizienten Filterung der Information. Das nachträgliche manuelle Annotieren ist jedoch nicht nur kostspielig und zeitintensiv, sondern angesichts eines Archivs mit Hunderttausenden von Artikeln praktisch nicht umsetzbar. “Unsere Entscheidung fiel auf IntraFind, da von der technischen Funktionalität der Software bis hin zu Architektur und Preis alles stimmte.” Cornelius Baier Leiter Online-Technik, ZEIT ONLINE GmbH Verbesserung der Suchqualität auf www.zeit.de Anreicherung redaktioneller Inhalte mit semantischen Informationen Kombination aus automatischer Verschlagwortung und redaktioneller Kontrolle KUNDENZITAT KEY HIGHLIGHTS

SEMANTISCHE SUCHE @ ZEIT ONLINE - intrafind.de · Automatische Verschlagwortung für neue und archivierte redaktionelle Inhalte und ... Die Online-Redaktion mit Sitz in Berlin berichtet

Embed Size (px)

Citation preview

KUNDENREFERENZ

SEMANTISCHE SUCHE @ ZEIT ONLINEAutomatische Verschlagwortung für neue und archivierte redaktionelle Inhalte und qualitative Verbesserung der Suchqualität im Portal www.zeit.de

KUNDENPROFIL

ZEIT ONLINE zählt zu den innova-tivsten deutschen Nachrichtenportalen.

Auf der Plattform www.zeit.de stellt das Unternehmen seinen Lesern minutenaktuelle Nachrichten aus verschiedensten Themengebieten sowie das Archiv der Wochenzeitung DIE ZEIT (Auflage: ca. 500.000 ver-kaufte Exemplare) zur Verfügung.

Die Online-Redaktion mit Sitz in Berlin berichtet seit 1996 aus den Themenbereichen Politik, Wirtschaft, Kultur, Wissenschaft und vielen anderen. Neben Hintergrundinformationen und Themenschwerpunkten bietet ZEIT ONLINE ihren Lesern auch die Möglichkeit, sich in Form von Kommentaren und Beiträgen aktiv zu beteiligen.

HERAUSFORDERUNG

Das umfangreiche Archiv von ZEIT ONLINE umfasst Artikel vom Gründungs-jahr der Wochenzeitung DIE ZEIT (1946) bis in die Gegenwart. Um den Zugang zu dieser umfangreichen Wissensbasis für den Benutzer bestmöglich zu gestalten, reichen allerdings die Funktionalitäten einer einfachen Volltextsuche nicht aus. ZEIT ONLINE versieht deshalb bereits seit Jahren jeden neuen Artikel mit passenden thematischen Schlagwörtern bzw. Themenklassen – diese Tätigkeit erfolgt ausschließlich manuell durch Redakteure. Die zusätzlichen Annota-tionen ermöglichen einen besseren Zugang zu den gewünschten Informa-tionen und dienen zudem einer effizienten Filterung der Information. Das nachträgliche manuelle Annotieren ist jedoch nicht nur kostspielig und zeitintensiv, sondern angesichts eines Archivs mit Hunderttausenden von Artikeln praktisch nicht umsetzbar.

“Unsere Entscheidung fiel auf IntraFind, da von der technischen Funktionalität der Software bis hin zu Architektur und Preis alles stimmte.”

Cornelius Baier

Leiter Online-Technik, ZEIT ONLINE GmbH

• Verbesserung der Suchqualität auf www.zeit.de

• Anreicherung redaktioneller Inhalte mit semantischen Informationen

• Kombination aus automatischer Verschlagwortung und redaktioneller Kontrolle

KUNDENZITAT

KEY HIGHLIGHTS

Aus diesem Grund verfolgt ZEIT ONLINE das Ziel, im Rahmen eines Projektes Informationsextraktionsverfahren für eine automatische Annotation neuer und archivierter Artikel einzuführen und in das produktive Suchsystem zu integrieren.

Im Auswahlverfahren zur Vergabe des Projektes fiel die Wahl auf den Anbieter IntraFind, da IntraFind nicht nur die geeigneten Technologien für diesen Zweck anbietet, sondern auch bereits über große Projekterfahrung in der Verlagsbranche verfügt und im mehrstufigen Proof of Concept den hochgesteckten Qualitätsanspruch der Redaktion erfüllen konnte.

TECHNISCHE UMSETZUNG

Morphologische Analyse

Das IntraFind Linguistikmodul für Deutsch, LISA DE, wird in jeder der drei genannten Technologien verwendet, um die Qualität der Ergebnisse durch eine morphologischen Analyse in der Vorverarbeitung zu optimieren.

ZEIT ONLINE setzt als Kerntechnologie für die Volltextsuche die Open Source-Technologie Apache Solr ein. Ein ent- scheidendes Defizit von Solr ist die nicht vorhandene Linguistik-Komponente, welche aber einen entscheidenden Einfluss auf die Qualität einer Volltextsuche hat. Stattdessen verwendet Solr für die Grundformreduktion nur algorithmische Stemming-Verfahren (bspw. Porter Stemmer), welche im Gegensatz zu einer Lemmatisierung nur eine schlechte Qualität liefern.

IntraFind verfügt über die Linguistik-Komponente LISA, welche funda-mentale linguistische Analysen durch-

führt und somit als erster Schritt in allen Text Mining Applikationen, auch im Verschlagwortungsservice, ihre Anwendung findet. Die zentralen Funktionen von LISA bestehen in der morphologischen Lemmatisierung (Grundformenerzeu- gung) und der Dekomposition (Zerlegung von Mehrwortbegriffen). Zu jedem Wort werden unter Verwendung umfang-reicher, speziell aufgearbeiteter Lexika die sprachund wortartenspezifischen Normalformen ermittelt.

Die Kompositazerlegung erfolgt auf der Basis komplexer linguistischer Regeln und Filter. Sie ermöglichen nicht nur die korrekte Zerlegung eines Wortes in Lemmata (Grundformen), sondern auch die Auswahl der einen korrekten unter mehreren möglichen Zerlegungsvarianten. So wird beispiels- weise das Wort „Kinderbuch“ in die Bestandteile „Kind“ und „Buch“ zerlegt. Kommt also der Satz „die Autorin las aus verschiedenen „Kinderbüchern“ vor“ in einem Dokument vor, so erzeugt LISA aus dem Wort „Kinderbüchern“ die Grundform „Kinderbuch“ und speichert

zusätzlich die Einzelbestandteile „Kind“ und „Buch“ im Index ab. Somit wird eine maximale Vollständigkeit der späteren Suchergebnisse erreicht.

Skalierbarkeit der Entitätenerkennung

Informationsextraktionsmethoden sind hinsichtlich der Laufzeit teure Methoden und die Anwendung auf großen Datenmengen skaliert schlecht. Der Verschlagwortungsservice für ZEIT ONLINE ist deshalb auf mehrere Threads verteilbar, um so die Skalierbarkeit der Informationsextraktion und Entitätenerkennung für große Datenmengen zu garantieren.

Verschlagwortungsservice für ZEIT ONLINE

Die automatisierte Anreicherung der ZEIT ONLINE-Inhalte erfolgt durch einen eigenen Service, der über RESTFul Web-Services in das bestehende Redaktionssystem der ZEIT ONLINE integriert wurde.

UMSETZUNG

Das Gesamtprojekt umfasste zwei getrennte Teilprojekte, die mit den-selben Produkten für Indizierung und Textaufbereitung realisiert wurden:

* Automatische Verschlagwortung für neue redaktionelle Inhalte sowie in einem initialen Lauf die Verschlagwortung des bestehenden Archivs.

* Verbesserung der Suchqualität im Portal www.zeit.de durch Integra- tion der qualitativ hochwertigen Morphologie für Grundformenerzeu-gung und Kompositazerlegung von IntraFind (Produkt LISA) in die be-stehende Open Source-Suchlösung Solr.

Im Verschlagwortungssystem kommen folgende IntraFind Produkte intelligent kombiniert zum Einsatz:

* Eine freie Verschlagwortung auf Basis des Produkts Semantisch-Assoziative Suche

* Die Erkennung der Entitäten von Personen, Organisationen und Orten mit dem Produkt NAMER

* Eine Themenerkennung auf Basis einer ZEIT ONLINE Taxonomie mittels des Textklassifikationsprodukts TopicFinder

Die IntraFind-Lösung unterstützt also in zwei Bereichen: Sowohl bei den Content-Erstellungs-Prozessen im„Backend“ als auch in der Portalsuche im „Frontend“. Sämtliche Produkte sind in einer serviceorientierten Architektur zu einer Gesamtlösung zusammengefasst.

Cornelius Baier, Leiter Online-Technik beim Auftraggeber ZEIT ONLINE, äußert sich sehr zufrieden über die Ergebnisse des Projektes:

„Wir haben gemeinsam mit der Redaktion über einen langen Zeit-raum unterschiedlichste Anbieter

evaluiert und uns letztendlich für IntraFind entschieden, weil hier alles stimmte—von der technischen Funktionalität der Software über den Preis bis hin zur Architektur war alles so, wie es sein sollte. Die Zusammenarbeit mit den Experten

von IntraFind klappte während der gesamten Projektlaufzeit exzellent und die neue, qualitativ deutlich verbesserte Suche wird sowohl von den Besuchern von www.zeit.de als auch von unserem Redaktionsteam gerne und häufig genutzt.“

KUNDENFEEDBACK

Dieser Verschlagwortungsservice kom- biniert die drei grundsätzlich unabhän-gigen Produkte von IntraFind für die freie Verschlagwortung, Textklassifika-tion und Named Entity Recognition (NER) und bietet einfache und effizi-ente Konfigurationsmöglichkeiten sowie einen einheitlichen Zugriff.

Des Weiteren werden die Ergebnisse dieser Text-Mining Analysen im Ver- schlagwortungssystem intern evaluiert (bspw. durch eine zusätzliche

ZUSAMMENFASSUNG

Die Verwendung des Verschlag-wortungsservice ermöglicht der ZEIT ONLINE, das gesamte Archiv mit Hundertausenden von Artikeln und Kommentaren sowie neu erstellte redaktionelle Inhalte mit zusätzlichen Metadaten zu versehen – ohne Qualitäts- einbußen trotz automatisierter Verfah-ren, performant, hoch skalierbar und nahtlos in bestehende Prozesse integriert.

Dadurch verbessert sich sowohl das aktive Sucherlebnis auf www.zeit.de als

auch die Navigation innerhalb der Web- seite. Eine nachhaltig gesteigerte Verweildauer der Portalbesucher seit Einführung der neuen Suche belegt den Erfolg dieser Verbesserungsmaßnahmen.

Die Redakteure von ZEIT ONLINE werden durch den Einsatz der IntraFind Lösung von der manuellen Verschlagwortungstätigkeit entlastet, können aber jederzeit im Rahmen eines Qualitätssicherungsprozesses Korrekturen an der Auswahl der automatisch vorgeschlagenen Themenschlagwörter vornehmen.

Für einen weiteren Ausbau des Ver-schlagwortungsservice sollen neue, relevante Schlagwörter und Entitäten vorgeschlagen werden, die bisher noch nicht im kontrollierten Vokabular vorkommen. Das System wird dann in der Lage sein, bisher unbekannte Personen oder Organisationen auto-matisch vorzuschlagen, wenn das System für diese neuen Terme einen bestimmten Relevanzgrad ermittelt hat.

Disambiguierung) und dadurch das Gesamtergebnis der Verschlagwortung optimiert. Die erzeugte freie Schlagwort- liste wird gegen ein kontrolliertes Vo-kabular gematcht, um die Vergabe freier Schlagworte grundsätzlich zu limitieren und deren Qualität zu sichern.

Verbesserung der Suche

Für die qualitative Verbesserung der bestehenden Suche wurde diese mit folgenden Funktionen angereichert:

* Morphologische Analyse mit Grund- formenerzeugung, Kompositazerle-gung und Phrasenerkennung (Linguistikmodul LISA)

* Autovervollständigung der Such-anfrage (search-as-you-type)

* Rechtsschreibprüfung mit Tippfehlerkorrektur

Automatisches Befüllen der Verschlagwortungs-

maske des Redaktionssystems @ ZEIT ONLINE

IntraFind Software AG Landsberger Straße 368 80687 München Tel: +49 (89) 309 0446-0 intrafind.com

IntraFind entwickelt Produkte und Lösungen für das effiziente Suchen, Finden, Analysieren von unstrukturierten, semistrukturierten und strukturierten Informationen unter Berücksichtigung aller verfügbaren Datenquellen eines Unternehmens. MKTNG-v03/022013

Mit freundlicher Genehmigung der ZEIT ONLINE GmbH

© 2013 inhaltliche Änderungen vorbehalten

UNTERNEHMENSPROFIL

• IntraFind wurde im Jahr 2000 gegründet und beschäftigt derzeit 30 Mitarbeiter.

• Fundiertes Know-how und die Fokussierung auf das Spezialthema Search zeichnen das IntraFind Expertenteam aus.

• IntraFind verfügt über mehr als zwölf Jahre Erfahrung in der Planung und Durchführung von Search-, Retrieval- & Wissensmanagement-Projekten.

• Zum qualitativ hochwertigen und standardisierten Produktportfolio der IntraFind-Software AG zählen Softwareprodukte für performante und skalierbare Suche, automatische Textklassifikation sowie Named Entity Recognition auf der Basis von Lucene und Solr.

• Das Enterprise Search-Produkt iFinder umfasst eine benutzerfreundliche und leistungsfähige Volltextsuche, die mit Modulen für Linguistik, Ähnlichkeitssuche, semantische Suche, Thesaurus- oder Taxonomie-basierte Suche, Entitäten-Erkennung, Text Clustering, Textklassifikation sowie Wissenslandkarten erweitert werden kann.

Profitieren auch Sie von den intelligenten IntraFind-Lösungen! Als Hersteller der Enterprise Search-Lösung iFinder garantieren wir höchste Qualität und damit einen deutlichen Mehrwert für Unternehmen. Experten entwickeln unsere Produkte, die höchste Anforderungen erfüllen. Wir reagieren schnell und flexibel auf Ihre Herausforderungen – und haben Lösungen für Sie parat.