16
Durchblick durch Einblick Semantische Analyseverfahren für neue Erkenntnisse aus unstrukturierten Daten Ein Whitepaper der Experton Group AG Oktober 2015

Experton whitepaper-sinequa-durchblick-durch-einblick

Embed Size (px)

Citation preview

Durchblick durch Einblick Semantische Analyseverfahren für neue Erkenntnisse aus unstrukturierten Daten

Ein Whitepaper der Experton Group AG Oktober 2015

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 2

Copyright

Die vorliegende Analyse wurde von der Experton Group AG im Auftrag der Sinequa

S.A.S. erstellt. Trotz der gewissenhaften und mit größter Sorgfalt erfolgten

Ermittlung der Informationen und Daten kann für deren Vollständigkeit und

Richtigkeit keine Garantie übernommen werden. Niemand sollte aufgrund dieser

Informationen handeln ohne geeigneten fachlichen Rat und ohne gründliche

Analyse der betreffenden Situation.

Alle Rechte am Inhalt dieses Untersuchungsberichtes liegen bei der Experton

Group. Die Daten und Informationen bleiben Eigentum der Experton Group.

Vervielfältigungen, auch auszugsweise, bedürfen der schriftlichen Genehmigung

der Experton Group AG.

Copyright Experton Group, 2015

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 3

Inhaltsverzeichnis

1 MANAGEMENT SUMMARY 4

2 EINFÜHRUNG 5

3 BIG DATA SUCH- UND ANALYSEVERFAHREN 7

4 DER MARKT FÜR BIG-DATA-SUCHE UND -ANALYSE 9

5 SINEQUA ALS LÖSUNGSANBIETER 12

6 FAZIT 14

7 SINEQUA 15

8 EXPERTON GROUP AG 15

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 4

1 Management Summary

Die Datenberge in den Unternehmen werden immer größer. Daher ist absehbar,

dass Enterprise Search-Applikationen und -Lösungen zu wesentlichen - wenn nicht

sogar Kern-Elementen - der Unternehmens-IT werden.

Strukturierte Daten lassen sich leicht mit mathematischen Verfahren verarbeiten.

Je unstrukturierter die Daten sind, desto komplexer sind die Anforderungen an die

Algorithmen. Jedoch liegen erst in der Komplexität der Big-Data-Szenarien und der

Daten selbst wirkliche Wettbewerbsvorteile. Es ist nicht sehr realistisch,

anzunehmen, dass statistische Verfahren, spalten-orientierte Datenbanken, In-

Memory-Technologien oder neue, schnelle Indizierungsmechanismen allein die

Lösung für den dort entstehenden Bedarf darstellen.

Die Ära der Geschäftsentscheidungen auf Basis einfacher Reports, die aus

gefilterten und vorsortierten Daten (die wiederum überwiegend Zahlen oder einen

eng beschränkten Wortschatz enthalten) entstehen, geht zu Ende. Bei Big-Data-

Analytics geht es um mehr als die Ermittlung von Unternehmens-Kennzahlen für

eine Business-Scorecard. Es geht darum, die Ergebnisse in einen logischen

Zusammenhang mit allen zugehörigen Informationen zu bringen. Nur durch eine

neuartige Sicht auf große strukturierte, unstrukturierte und teilstrukturierte Daten

lassen sich wirklich neue Erkenntnisse gewinnen. Die semantische (inhaltliche)

Analyse von großen Datenmengen leistet hier einen wichtigen technischen Beitrag

und macht Zusammenhänge sichtbar. Herkömmliche statistische (quantitative)

Verfahren können dies in der Regel nicht leisten.

Mit dem spezifischen Ansatz der semantischen Textanalyse eröffnet sich

Anwendern eine neue Technologie für die Erschließung und Analyse

polystrukturierter Daten, die gleichermaßen aus der Unternehmens-IT (ERP, CRM,

u.a.) stammen können, wie auch aus externen Quellen, darunter Social Media,

Nachrichtenkanälen, E-Mails, Bürodokumenten oder Webseiten. Damit rückt auch

die unternehmensweite Suche (Enterprise Search) in den Fokus von Big-Data-

Technologien.

Die Experton Group empfiehlt Anwendern aufgrund der starken Zunahme immer

neuer Datenformate, seien sie strukturiert oder unstrukturiert, sehr intensiv über

fortschrittliche und zukunftssichere Analysemethoden nachzudenken und dabei

die semantische Analyse in den Fokus zu rücken. Nur durch die Kombination von

herkömmlichen statistischen und semantischen Analyseverfahren, unter

Einbindung sowohl strukturierter als auch unstrukturierter Daten, lassen sich

wirkliche Wettbewerbsvorteile erzielen. Eine entsprechende Analyse-Plattform

sollte die agile Entwicklung von Suche-basierenden Anwendungen (search based

applications) unterstützen. Diese können die spezifischen Geschäftsprozesse des

Anwenderunternehmens effizienter gestalten.

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 5

2 Einführung

Big-Data beschreibt die Gewinnung neuer Informationen aus enorm großen und

heterogenen Datenbeständen, die in kürzester Zeit sehr vielen Nutzern zur

Verfügung stehen müssen, um dadurch schnellere und bessere wettbewerbs-

kritische Entscheidungen treffen zu können. Big Data erweitert damit klassische

Business-Analytics-Anwendungen und ist durch einen enormen Zuwachs an

unterschiedlichsten Datenquellen, an Datennutzern (intern wie extern), an

Verarbeitungsgeschwindigkeit und an Datenvolumina gekennzeichnet.

Der Bitkom e.V. hat in seinen Leitfäden1 zu „Big Data“ eine der wichtigsten Heraus-

forderungen der nächsten Dekaden (!) zusammengefasst: ein schier

unaufhörliches Datenwachstum. Big Data mag seine Wurzeln darin gehabt haben,

dass die Ermittlung von Unternehmenskennzahlen auf eine breitere Datenbasis

gestellt wird. Jetzt ist aber klar: Die digitale Transformation schafft nicht nur immer

neue Daten, sondern sie verlangt vorrangig nach neuen Verfahren für die

Auswertung und Verknüpfung von Informationen.

Der Big-Data-Erkenntniskreislauf der Experton Group illustriert, wie durch eine

neue Sicht auf Daten neue Fragestellungen und Ideen entstehen. Die Beantwortung

dieser Fragen bedarf neuer Algorithmen und Verfahren - einschließlich Verfahren

zur Interpretation von Texten in geschriebener und gesprochener Form. Bei der

Umsetzung der Ideen werden weitere Daten aggregiert und neue Daten erzeugt.

Auch diese bilden wieder eine Ausgangsbasis für neue Fragen, Ideen und

Erkenntnisse sowie für abstrakte Services, also für neue datengetriebene

Geschäftsmodelle, die über den bisherigen Unternehmenszweck hinausgehen.

1 https://www.bitkom.org/Bitkom/Publikationen/Publikation_775.html und weitere

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 6

Daten, intern wie extern, sind zum wichtigsten Asset im globalen Wettbewerb

geworden. Die daraus gewonnenen Informationen sind eine strategische Ressource

in den immer komplexeren und dynamischeren Marktumfeldern. Es zeigt sich, dass

die Umsetzung von Big-Data-Szenarien vor allem an organisatorischen Barrieren

scheitert, während die technischen Barrieren relativ einfach ausgeräumt werden

können.

Bisherige herkömmliche statistische Verfahren, neue Datenbank- und In-Memory-

Technologien oder neue, schnelle Indizierungsmechanismen allein reichen jedoch

nicht als Antwort für den entstehenden Bedarf. Tatsächlich muss in alle Richtungen

geforscht werden: von der schnellen Bewegung sehr großer Datenmengen von

einem Ort zum anderen über leistungsfähige Computer und Netzwerke bis hin zur

Anwendung logischer Verfahren wie beispielsweise dem Natural Language

Processing (NLP).

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 7

3 Big Data Such- und Analyseverfahren

Die Ära der Geschäftsentscheidungen auf Basis einfacher Reports, die aus ge-

filterten und vorsortierten Daten (die wiederum überwiegend Zahlen oder einen

eng beschränkten Wortschatz enthalten) entstehen, geht zu Ende.

Rein statistische Analysen und Korrelationen sind für die zukünftigen Business-

Anforderungen nicht mehr ausreichend genau. Es geht inzwischen darum, die

Ergebnisse in einen logischen Zusammenhang mit allen zugehörigen Informationen

zu bringen. Statistische Korrelationen müssen also durch semantische

Korrelationen geprüft, verfeinert und ergänzt werden. Nur durch eine neuartige

Sicht auf große strukturierte, unstrukturierte und teilstrukturierte Daten lassen sich

wirklich neue Erkenntnisse gewinnen.

Die semantische (inhaltliche) Analyse von großen Datenmengen macht

Zusammenhänge sichtbar. Diese werden mit leistungsfähigen Darstellungs-

funktionen visualisiert. Zu den fortgeschrittenen Verfahren, mit denen heute aus

Daten auch neuartige semantische Korrelationen Erkenntnisse erarbeitet werden,

gehört das Natural Language Processing, die Verarbeitung natürlich sprachlicher

Informationen. Erkenntnisse entstehen beispielsweise, indem Daten miteinander

in Zusammenhänge gebracht werden, die zunächst von keinem statistischen bzw.

mathematischen Verfahren als relevant erachtet werden oder errechnet werden

können. Mit der semantischen Suche können zum Beispiel Ersatzteile in

Ersatzteilkatalogen gefunden werden, auch wenn die konkrete Artikelnummer oder

Artikelbezeichnung nicht bekannt ist. Mathematische bzw. statistische Verfahren

können diese Beziehungen oft nicht entdecken. Ergebnisse auf Basis semantischer

Analysen sind somit, je nach Zielstellung, für den Anwender aussagekräftiger, und

er wird umfassender informiert.

Während sich statistische Verfahren funktional immer weiter aneinander

angleichen und der Markt für statistische Analysen in den nächsten Jahren, nach

Experton-Erwartungen, auch eine Konsolidierung erleben wird, ist die semantische

Analyse von Texten noch recht neu. Entsprechende Verfahren waren bisher eher

auf nicht kommerzielle Anwendungen bei Nachrichtendiensten, Militär oder Polizei

konzentriert.

Statistische Verfahren sind sehr gut darin, die Häufung von Begriffen in einer

Datenmenge zu erkennen. So ermitteln sie sehr treffsicher, wie oft zum Beispiel

eine Kreditkartennummer im Zusammenhang mit einem Gegenstand (Handtasche,

Gürtel, Halstuch) verwendet wird und an welchen Orten die Kreditkarte benutzt

wird. Solche statistischen Verfahren lassen sich beliebig komplex gestalten. So sind

sie sehr gut geeignet, einen möglichen Kreditkartenbetrug anzuzeigen.

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 8

Bei dem Natural Language Processing geht es jedoch nicht nur darum, statistische

Auffälligkeiten (Häufungen von Begriffen in Transaktionsdatensätzen) eines

Quelldatensatzes anhand von Synonymwörterbüchern zu ermitteln. Es geht darum,

Synonyme im richtigen Kontext dem richtigen Vorgang zuzuordnen: Kohle, Moos,

Asche, Kies, Schotter können jeweils Begriffe für Geld sein. Jeder dieser Begriffe hat

aber auch seine eigene Bedeutung. Schotter ist selbstverständlich im

Zusammenhang mit Straßenbau nicht als Synonym für Geld zu werten, es sei denn,

es geht in dem Beispiel um die Aufklärung von Schmiergeldzahlungen, wo dann der

„Schotter“ (die Bestechung) für die Lieferung des Schotters (Baumaterial) gemeint

sein könnte. Allein dieses Beispiel veranschaulicht bereits die Komplexität des

Themas.

Relevante Anwendungsbereiche für modernes und fortgeschrittenes Natural

Language Processing lassen sich in nahezu allen Branchensegmenten finden,

angefangen bei Fertigungsunternehmen (Zuordnung von Varianten, Baugruppen

und Bauteilen, in sehr umfangreichen Produkten wie einem Pkw) bis hin zu

hoheitlichen Aufgaben (Strafverfolgung) öffentlicher Organisationen.

Wie wichtig dies sein kann, zeigt beispielsweise die Dokumentation von Flugzeugen

und Hubschraubern. Obwohl diese Verkehrsmittel in Serie gebaut werden, entsteht

das einzelne Produkt mit der Losgröße 1. Das bedeutet, dass auch die

Dokumentation eines jeden Produkts von den anderen Produkten abweicht. Eine

alte Redensart unter Flugzeugbauern sagt, dass ein neues Flugzeug erst dann die

Zulassung erhält, wenn das Gewicht der Dokumentation das Startgewicht der

Maschine erreicht hat. Ebenso komplexe Textdokumente finden sich im

wissenschaftlichen Bereich, wo es immer schwieriger wird, existierende wichtige

Veröffentlichungen zu finden. Auch bestimmten Berufsgruppen wie z.B.

Patentanwälten und Forschern können semantische Verfahren das schnelle Finden

relevanter Dokumente erleichtern, wenn beispielsweise riesige Datenbanken mit

Patentschriften ausgewertet werden müssen. Die Auswertung von Fallstudien,

Testreihen, Patentschriften und wissenschaftlichen Texten ist auch eine der

aufwändigsten Aufgaben in der pharmazeutischen Industrie und in der

medizinischen Forschung. Linguistische Mechanismen stellen bei der intelligenten

Auswertung von Texten die gesuchten Zusammenhänge dar.

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 9

4 Der Markt für Big-Data-Suche und -Analyse

Die Datenmengen, die in den Unternehmen anfallen, wachsen explosionsartig und

auch die Anzahl und Art der Datenquellen (strukturiert, semi-strukturiert,

unstrukturiert) wächst stetig, beispielsweise durch mobile Endgeräte, die Erschlie-

ßung von Mail-Archiven, Datenbestände aus Texten (darunter Produktdokumen-

tationen, Projektberichte, Fallstudien, Wartungsanleitungen), Streaming-Media,

Maschinendaten sowie Daten aus Social-Media. Die heute mögliche Vielfalt an

Daten führt zu einer bisher nicht dagewesenen Komplexität der Eingangsdaten.

Doch diese Daten liefern an sich noch keine Wertschöpfung, da erst die Gewinnung

neuer Informationen aus den Daten einen Mehrwert für das

Anwenderunternehmen darstellt.

Die Aggregation von Daten zu entscheidungsrelevanten Informationen, Ergebnisse

aus Datenbankanfragen und die „Entdeckung“ neuer Zusammenhänge wird

darüber hinaus in Echtzeit erwartet. Zudem werden die Informationen an immer

mehr Nutzer im Unternehmen und in der gesamten Wertschöpfungskette, vom

Lieferanten bis zum Kunden, verteilt. Es wächst also nicht nur die Zahl der

unterschiedlichen Datenquellen, sondern auch die Zahl der „Verbraucher“ von neu

gewonnen Informationen.

Die Digitalisierung der Wirtschaft und des Alltags erzeugt in den Industrieländern

immer mehr, auch komplexe, Daten, die immer häufiger auch als Text (also als

geschriebene Sprache) entstehen. Untersuchungen zeigen, dass mittlerweile etwa

70 bis 80 Prozent aller vorliegenden internen und externen Unternehmensdaten in

unstrukturierter Form vorliegen. Herkömmliche statistische Verfahren sind daher

nicht immer das Mittel der Wahl für die Analyse von Big-Data.

Dabei sieht die Experton Group Big Data als eine übergreifende Entwicklung hin zu

komplexen IT-Szenarien wie beispielsweise im Gesundheitswesen (E-Health), im

Straßenverkehr (interaktive, sekundenaktuelle Verkehrs- und Routenplanung über

große Geografien) und selbstverständlich in der betriebswirtschaftlichen IT (die

Verknüpfung von BI mit Daten aus MES, ERP oder CRM).

Hierbei sind immer mehr unstrukturierte Daten zu verarbeiten, die überwiegend

aus Texten bestehen. Unstrukturiert sind diese Daten, weil sie keinen erkennbaren

tabellen- oder listenartigen Aufbau haben. Es spielt auch keine Rolle, woher die

Daten kommen.

Strukturierte Daten lassen sich leicht mit mathematischen Verfahren verarbeiten.

Je unstrukturierter die Daten sind, desto komplexer sind die Anforderungen an die

Algorithmen. Jedoch liegen erst in der Komplexität der Big-Data-Szenarien und der

Daten selbst wirkliche Wettbewerbsvorteile.

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 10

Die Komplexität der Big-Data-Projekte setzt einen Kulturwandel in den

Anwenderunternehmen voraus.

Kulturwandel Schritt 1: Umdenken, denn Big Data lässt sich nicht als ROI über x

Jahre darstellen. Semantische Analysen wie mit der Software von Sinequa fördern

neue und vor allem neuartige Erkenntnisse und somit neue datengetriebene

Geschäftsmodelle, die wiederum zusätzliche Umsatzpotenziale ermöglichen.

Kulturwandel Schritt 2: Datensilos und hoheitliche Zuordnung von Daten im

Unternehmen aufheben, damit ganz verschiedenen (berechtigten) Beteiligten der

Zugriff auf die Rohdaten ermöglicht wird. Keimzellen schaffen, in denen Big-Data-

Ideen zu Big-Data-Szenarien werden. Den Mitarbeitern entsprechend der Data-

Governance und der Big-Data-Ethik geeignete Freiräume schaffen und lassen. Auch

der spielerische Umgang mit semantischen Verfahren sollte dabei geübt werden.

Kulturwandel Schritt 3: Leitungsentscheidung darüber, ob die Fachabteilung oder

die IT-Abteilung für die Exploration von Daten und den Aufbau von Big-Data-

Szenarien zuständig ist bzw. ob hier eine Stabsfunktion für das Unternehmen

hilfreich ist. Oft ist es sinnvoll, eine allen Bereichen übergeordnete Instanz für die

Big-Data-Thematik zu schaffen.

Kulturwandel Schritt 4: Neue Algorithmen finden statt eines Scale-outs

vorhandener Lösungen. Wenn es bei Big-Data-Szenarien nicht nur darum geht, die

Kennzahlenermittlung auf eine breitere Datenbasis zu stellen, sind auch seman-

tische Analysen in Betracht zu ziehen.

Mit dem spezifischen Ansatz der semantischen Textanalyse eröffnet sich

Anwendern eine neue Technologie für die Erschließung und Analyse polystruk-

turierter Daten, die gleichermaßen aus der Unternehmens-IT (ERP, CRM, u.a.)

stammen können wie aus externen Quellen, darunter Social Media, Nachrich-

tenkanäle, E-Mails, Bürodokumente oder Webseiten.

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 11

Aus der Fähigkeit, diese Daten nicht nur statistisch auszuwerten, sondern logische

Erkenntnisse zu gewinnen, ergeben sich eine Vielzahl denkbarer Anwendungen:

Zielmarkt Denkbare Applikation Möglicher Beitrag von Sinequa

Regierung/

Behörden

Erkennungsdienstliche Aufgaben

Prävention

„Natural Language Processing“,

Spracherkennung, linguistische und

semantische Analysen in vielen

Sprachen

Automobilindustrie Ersatzteilorganisation „Natural Language Processing“,

korrekte Zuordnung von

Artikelnummern selbst zu

unscharfen Begriffen

Call-Center/Kunden-

unterstützung

360-Grad-Sicht auf den Kunden „Case Based Reasoning“ und

„Natural Language Processing“,

Erkennen der richtigen

Zusammenhänge, auch wenn die

verwendeten Begriffe nicht einer

Normung entsprechen

Versicherungen Risikominimierung „Natural Language Processing“ und

„Case Based Reasoning“ für

semantische Analyse von

Nachrichten zur Erkennung

bestimmter Gefahren-Situationen

und Verhaltensmuster

Pharmazeutische

Industrie

Kürzeres Time-to-Market Forschungsdatenbanken,

Laborberichte und klinische

Testreihen effizienter durchsuchen

und redundante Projekte vermeiden

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 12

5 Sinequa als Lösungsanbieter

Sehr schnelle Analysen, unternehmensweites Durchsuchen von Datenbeständen

und der vereinheitlichte Zugriff auf die Unternehmensinformationen (Unified

Information Access) sind die Domäne der Sinequa. Die Lösungen von Sinequa

basieren auf Technologien für die textuelle und inhaltliche - also für die linguistische

- Analyse. Die ausgereiften Content-Analytics-Funktionen von Sinequa ermöglichen

es Konzernen und öffentlichen Verwaltungen, relevante und wertvolle

Informationen aus sehr großen und komplexen Datenbeständen sowie aus

strukturierten und unstrukturierten Datenquellen zu gewinnen. Basierend auf den

Ergebnissen jahrelanger sprachwissenschaftlicher Forschung kombiniert die

flexible Softwarelösung semantische mit statistischer Analyse, stellt Zusammen-

hänge in heterogenen, großen Datenmengen her und liefert Anwendern relevante

Ergebnisse für ihre Arbeitsprozesse. Sinequas hochgradig skalierbare Lösung

durchsucht hunderte Millionen von Dokumenten und Milliarden von Datenbank-

Records äußerst effizient und versorgt bei Bedarf zehntausende Nutzer mit den

richtigen Suchergebnissen. Die leistungsstarke Architektur sowie die „Out-of-the-

box“-Konnektoren für alle gängigen Unternehmensanwendungen und

Datenquellen gewährleisten eine schnelle und kosteneffiziente Implementierung

und Integration in bestehende IT-Umgebungen. Viele Anwender in großen

Unternehmen und Organisationen nutzen Sinequa bereits, um effizient auf

geschäftskritische Informationen zugreifen zu können. Zum renommierten

Kundenkreis des Unternehmens zählen Airbus, AstraZeneca, Atos, Biogen, Crédit

Agricole, das französische Verteidigungsministerium, die Europäische Kommission

und Siemens.

Eine Herausforderung ist für die Anwender das Zusammenführen von Daten. Viele

Analyse-Lösungen setzen voraus, dass Adapter individuell entwickelt werden. Bei

Sinequa ermöglichen 140 Konnektoren die Erschließung aller gängigen

Datenquellen - von DOCX, PDF, TXT und CSV über verschiedene zeilen- oder

spaltenorientierte Datenbankformate bis hin zu Social Media und den nativen

Formaten von Data Warehouses. Diese übernehmen auch bereits einen Teil der

Verarbeitung. Zusätzlich dazu hat Sinequa weitere Konnektoren seiner Big Data

Such & Analyse-Plattform auch für Third-Party-Cloud-Storage, Product-Lifecycle-

Management-Systeme und Social-Media-Feeds entwickelt.

Cloud-Dienste, ob privat, öffentlich oder hybrid, werden von großen Unternehmen

aller Branchen immer intensiver genutzt. Sinequa-Kunden können jetzt die AWS-

Cloud nutzen, um flexibler die Infrastruktur an ihren Bedarf anpassen zu können.

So können zusätzlich Millionen von Dokumenten und Milliarden von

Datenbankeinträgen analysiert und gleichzeitig die Total Cost of Ownership für die

benötigte Infrastruktur gesenkt werden. Die Anwender profitieren von

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 13

vollständiger Transparenz bei der Suche und können Informationen über Cloud-

und Enterprise-Anwendungen schneller abrufen.

Die Grundlage für den Einsatz semantischer Verfahren ist die Entity Extraction, die

Begriffe in Texten „erkennt“ und sie mit verwandten Begriffen in Beziehung setzen

kann. Unternehmensspezifische Synonymlisten und Ontologien können das Wissen

über Begriffe und deren Beziehungen verstärken. Anwender können daher nach

Begriffen fragen, die nicht in den relevanten Texten vorkommen, und trotzdem eine

relevante Antwort erhalten. So kann die Frage nach dem „gelben Knopf“ an einer

Maschine die entsprechende Beschreibung der „Prüftaste“ aus der Dokumentation

liefern, auch wenn die Frage weder die genaue Artikelbezeichnung noch diesen

Begriff enthält.

Es ist vorstellbar, dass zu Beginn der Arbeit mit einer NLP-Software irrtümliche

Treffer (sogenannten „false positives“) angezeigt werden. Typischerweise werden

diese von den Anwendern individuell markiert, wobei die Software dies

interpretiert. Sinequa unterstützt diesen Lernprozess effektiv durch die Fähigkeit,

nahezu beliebige Ontologien und Thesauren einlesen zu können, um die

Anlernphase der Software zu verkürzen.

Für die Darstellung der Suchergebnisse werden Diagramme und andere

Ergebnispräsentationen genutzt. Getreu dem Motto „Ein Bild sagt mehr als tausend

Worte“ haben sich für die verschiedenen Arten von Erkenntnissen aus den

Datenanalysen auch verschiedene Darstellungsformen durchgesetzt. Besonders

populär sind zur Zeit beispielsweise Graphen. Sinequa beherrscht alle gegenwärtig

typischen Arten von Charts, Diagrammen und Reports.

Die Software von Sinequa wird in Deutschland direkt und über ein Netz von

Partnern vertrieben. Sinequa hat ihre Partnerlandschaft in den letzten Jahren und

Monaten strategisch ausgebaut. Neue Allianzen und Partnerschaften gibt es zum

Beispiel mit der Atos SE, die mit ihren 93.000 Beschäftigten in 72 Ländern Projekte

mit Big-Data-Content-Analyse auch auf Basis der Sinequa-Lösungen durchführt.

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 14

6 Fazit

Big-Data-Projekte sind komplex. Das Speichern und Auswerten von einigen hundert

Terabytes ist dabei nur die „Einstiegsdroge“ zu immer komplexeren Szenarien, und

in der Komplexität liegen die eigentlichen Wettbewerbsvorteile für die Anwender,

die so aus ihren Daten mehr und neue Informationen gewinnen können. Je

komplexer die Datenquellen und -arten sind, desto wichtiger ist es, nicht nur

statistische Verfahren zu nutzen, sondern die Inhalte durch linguistische Verfahren

auch zu „verstehen“.

Die Datenberge in den Unternehmen werden immer größer. Daher ist absehbar,

dass Enterprise Search-Applikationen und -Lösungen zu wesentlichen - wenn nicht

sogar Kern-Elementen - der Unternehmens-IT werden.

Oftmals stellen sich Anwender, vor allen jene mit einer leistungsfähigen IT-

Organisation, die Frage nach dem „Make or Buy?“. Der Aufwand für die komplette

Neuentwicklung einer semantischen Enterprise-Search-Anwendung wurde von der

Experton Group in einem konkreten Projekt auf bestenfalls weit über 24 Personen-

jahre berechnet. Dabei waren ausreichend linguistisch erfahrene Softwareentwick-

ler Teil der Berechnungsgrundlage. Ohne diese würde der Aufwand für eine

Neuentwicklung um ein Vielfaches steigen. Auch der Aufwand für eine Neuent-

wicklung mit vorhandenen Tools und Open-Source-Komponenten darf nicht

unterschätzt werden.

Bei der Auswahl von Lösungen mit intelligenten semantischen Analysen nahezu

beliebiger Daten ist es zudem oft besser, neue Wege zu beschreiten. Anwender, die

sich zu sehr an Bekanntem orientieren, büßen jene Wettbewerbsvorteile ein, die

sich aus einem neuen, unvoreingenommenen Blick auf die Daten ergeben.

Die Experton Group empfiehlt Anwendern aufgrund der Zunahme immer neuer

Datenformate, seien sie strukturiert oder unstrukturiert, sehr intensiv über

zukunftssichere Analysemethoden nachzudenken und dabei die semantische

Analyse in den Fokus zu rücken. Beschleunigungsverfahren wie In-Memory-

Techniken oder Datenbankbeschleuniger schaffen durch die schnellere Lieferung

von Ergebnissen Reserven für weitere Iterationen, jedoch immer im Rahmen der

vorherrschenden Denkwelten. Es gilt nun, diese Verfahren und Techniken mit

intelligenter und zukunftssicherer Technologie, zur Gewinnung wirklich neuer

Erkenntnisse, zu erweitern.

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 15

7 Sinequa

Sinequa ist eine der führenden Softwarefirmen im Markt für Big Data Content-

Analyse in Realzeit, Enterprise Search und Unified Information Access. Die

ausgereiften Content Analytics-Funktionen der Sinequa-Lösung ermöglichen es

Konzernen und Öffentlichen Verwaltungen, wertvolle Informationen aus sehr

großen und komplexen Datenbeständen, aus strukturierten Anwendungen und

unstrukturierten Datenquellen zu gewinnen. Basierend auf den Ergebnissen

jahrelanger, sprachwissenschaftlicher Forschung kombiniert die flexible

Softwarelösung semantische mit statistischer Analyse, stellt Zusammenhänge in

heterogenen, großen Datenmengen her und liefert Anwendern relevante

Ergebnisse für ihre Arbeitsprozesse. Sinequas hochskalierbare Lösung durchsucht

Milliarden von Dokumenten und Datensätzen in Datenbanken äußerst effizient und

versorgt zehntausende von Nutzern mit den für sie relevanten Informationen. Die

leistungsstarke Architektur sowie die gebrauchsfertigen Konnektoren für alle

gängigen Unternehmensanwendungen und Datenquellen gewährleisten eine

schnelle und kosteneffiziente Implementierung und Integration in bestehende IT-

Umgebungen. Millionen von Anwendern in großen Unternehmen und

Organisationen nutzen bereits Sinequa, um effizient auf geschäftskritische

Informationen zugreifen zu können. Zum renommierten Kundenkreis des

Unternehmens zählen Airbus, AstraZeneca, Atos, Biogen, Crédit Agricole, das

französische Verteidigungsministerium, die Europäische Kommission und Siemens.

8 Experton Group AG

Experton Group ist ein führendes IT-Research- und Beratungsunternehmen. Mit

europaweit 80 erfahrenen Analysten unterstützen wir mittelständische und große

Anwenderunternehmen bei der strategischen Planung und Umsetzung ihrer IT-

Strategien. Zudem unterstürzt Experton Group IT-Anbieter in Strategie-,

Marketing- und Wettbewerbsfragen.

Experton Group Whitepaper „Durchblick durch Einblick”

© Copyright Experton Group AG 16

Impressum Herausgeber: Experton Group AG Carl-Zeiss-Ring 4 D - 85737 Ismaning Vorstand: Jürgen Brettel (Vorsitzender), Lutz Peichert, Nils Bachmann Aufsichtsratsvorsitzender: Wolfgang Stübich Amtsgericht München HRB 158568 Version 3 Oktober 2015 © 2015, Experton Group AG, Ismaning.