Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

Embed Size (px)

Citation preview

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    1/16

    Durchblick durch EinblickSemantische Analyseverfahren frneue Erkenntnisse aus unstrukturierten Daten

    Ein Whitepaperder Experton Group AG

    Oktober 2015

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    2/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 2

    Copyright

    Die vorliegende Analyse wurde von der Experton Group AG im Auftrag der SinequaS.A.S. erstellt. Trotz der gewissenhaften und mit grter Sorgfalt erfolgten

    Ermittlung der Informationen und Daten kann fr deren Vollstndigkeit und

    Richtigkeit keine Garantie bernommen werden. Niemand sollte aufgrund dieser

    Informationen handeln ohne geeigneten fachlichen Rat und ohne grndliche

    Analyse der betreffenden Situation.

    Alle Rechte am Inhalt dieses Untersuchungsberichtes liegen bei der Experton

    Group. Die Daten und Informationen bleiben Eigentum der Experton Group.

    Vervielfltigungen, auch auszugsweise, bedrfen der schriftlichen Genehmigung

    der Experton Group AG.

    Copyright Experton Group, 2015

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    3/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 3

    Inhaltsverzeichnis

    1 MANAGEMENT SUMMARY 4

    2 EINFHRUNG 5

    3 BIG DATA SUCH- UND ANALYSEVERFAHREN 7

    4 DER MARKT FR BIG-DATA-SUCHE UND -ANALYSE 9

    5 SINEQUA ALS LSUNGSANBIETER 12

    6 FAZIT 14

    7 SINEQUA 15

    8 EXPERTON GROUP AG 15

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    4/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 4

    1 Management Summary

    Die Datenberge in den Unternehmen werden immer grer. Daher ist absehbar,

    dass Enterprise Search-Applikationen und -Lsungen zu wesentlichen - wenn nicht

    sogar Kern-Elementen - der Unternehmens-IT werden.

    Strukturierte Daten lassen sich leicht mit mathematischen Verfahren verarbeiten.

    Je unstrukturierter die Daten sind, desto komplexer sind die Anforderungen an die

    Algorithmen. Jedoch liegen erst in der Komplexitt der Big-Data-Szenarien und der

    Daten selbst wirkliche Wettbewerbsvorteile. Es ist nicht sehr realistisch,

    anzunehmen, dass statistische Verfahren, spalten-orientierte Datenbanken, In-

    Memory-Technologien oder neue, schnelle Indizierungsmechanismen allein die

    Lsung fr den dort entstehenden Bedarf darstellen.

    Die ra der Geschftsentscheidungen auf Basis einfacher Reports, die aus

    gefilterten und vorsortierten Daten (die wiederum berwiegend Zahlen oder einen

    eng beschrnkten Wortschatz enthalten) entstehen, geht zu Ende. Bei Big-Data-

    Analytics geht es um mehr als die Ermittlung von Unternehmens-Kennzahlen fr

    eine Business-Scorecard. Es geht darum, die Ergebnisse in einen logischen

    Zusammenhang mit allen zugehrigen Informationen zu bringen. Nur durch eine

    neuartige Sicht auf groe strukturierte, unstrukturierte und teilstrukturierte Daten

    lassen sich wirklich neue Erkenntnisse gewinnen. Die semantische (inhaltliche)

    Analyse von groen Datenmengen leistet hier einen wichtigen technischen Beitrag

    und macht Zusammenhnge sichtbar. Herkmmliche statistische (quantitative)

    Verfahren knnen dies in der Regel nicht leisten.

    Mit dem spezifischen Ansatz der semantischen Textanalyse erffnet sich

    Anwendern eine neue Technologie fr die Erschlieung und Analyse

    polystrukturierter Daten, die gleichermaen aus der Unternehmens-IT (ERP, CRM,

    u.a.) stammen knnen, wie auch aus externen Quellen, darunter Social Media,

    Nachrichtenkanlen, E-Mails, Brodokumenten oder Webseiten. Damit rckt auch

    die unternehmensweite Suche (Enterprise Search) in den Fokus von Big-Data-

    Technologien.

    Die Experton Group empfiehlt Anwendern aufgrund der starken Zunahme immer

    neuer Datenformate, seien sie strukturiert oder unstrukturiert, sehr intensiv ber

    fortschrittliche und zukunftssichere Analysemethoden nachzudenken und dabei

    die semantische Analyse in den Fokus zu rcken. Nur durch die Kombination von

    herkmmlichen statistischen und semantischen Analyseverfahren, unter

    Einbindung sowohl strukturierter als auch unstrukturierter Daten, lassen sich

    wirkliche Wettbewerbsvorteile erzielen. Eine entsprechende Analyse-Plattform

    sollte die agile Entwicklung von Suche-basierenden Anwendungen (search based

    applications) untersttzen. Diese knnen die spezifischen Geschftsprozesse desAnwenderunternehmens effizienter gestalten.

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    5/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 5

    2 Einfhrung

    Big-Data beschreibt die Gewinnung neuer Informationen aus enorm groen und

    heterogenen Datenbestnden, die in krzester Zeit sehr vielen Nutzern zur

    Verfgung stehen mssen, um dadurch schnellere und bessere wettbewerbs-

    kritische Entscheidungen treffen zu knnen. Big Data erweitert damit klassische

    Business-Analytics-Anwendungen und ist durch einen enormen Zuwachs an

    unterschiedlichsten Datenquellen, an Datennutzern (intern wie extern), an

    Verarbeitungsgeschwindigkeit und an Datenvolumina gekennzeichnet.

    Der Bitkom e.V. hat in seinen Leitfden1zu Big Data eine der wichtigsten Heraus-

    forderungen der nchsten Dekaden (!) zusammengefasst: ein schier

    unaufhrliches Datenwachstum. Big Data mag seine Wurzeln darin gehabt haben,

    dass die Ermittlung von Unternehmenskennzahlen auf eine breitere Datenbasis

    gestellt wird. Jetzt ist aber klar: Die digitale Transformation schafft nicht nur immer

    neue Daten, sondern sie verlangt vorrangig nach neuen Verfahren fr die

    Auswertung und Verknpfung von Informationen.

    Der Big-Data-Erkenntniskreislauf der Experton Group illustriert, wie durch eineneue Sicht auf Daten neue Fragestellungen und Ideen entstehen. Die Beantwortung

    dieser Fragen bedarf neuer Algorithmen und Verfahren - einschlielich Verfahren

    zur Interpretation von Texten in geschriebener und gesprochener Form. Bei der

    Umsetzung der Ideen werden weitere Daten aggregiert und neue Daten erzeugt.

    Auch diese bilden wieder eine Ausgangsbasis fr neue Fragen, Ideen und

    Erkenntnisse sowie fr abstrakte Services, also fr neue datengetriebene

    Geschftsmodelle, die ber den bisherigen Unternehmenszweck hinausgehen.

    1https://www.bitkom.org/Bitkom/Publikationen/Publikation_775.html und weitere

    https://www.bitkom.org/Bitkom/Publikationen/Publikation_775.htmlhttps://www.bitkom.org/Bitkom/Publikationen/Publikation_775.htmlhttps://www.bitkom.org/Bitkom/Publikationen/Publikation_775.html
  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    6/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 6

    Daten, intern wie extern, sind zum wichtigsten Asset im globalen Wettbewerb

    geworden. Die daraus gewonnenen Informationen sind eine strategische Ressource

    in den immer komplexeren und dynamischeren Marktumfeldern. Es zeigt sich, dassdie Umsetzung von Big-Data-Szenarien vor allem an organisatorischen Barrieren

    scheitert, whrend die technischen Barrieren relativ einfach ausgerumt werden

    knnen.

    Bisherige herkmmliche statistische Verfahren, neue Datenbank- und In-Memory-

    Technologien oder neue, schnelle Indizierungsmechanismen allein reichen jedoch

    nicht als Antwort fr den entstehenden Bedarf. Tatschlich muss in alle Richtungen

    geforscht werden: von der schnellen Bewegung sehr groer Datenmengen von

    einem Ort zum anderen ber leistungsfhige Computer und Netzwerke bis hin zur

    Anwendung logischer Verfahren wie beispielsweise dem Natural LanguageProcessing (NLP).

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    7/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 7

    3 Big Data Such- und Analyseverfahren

    Die ra der Geschftsentscheidungen auf Basis einfacher Reports, die aus ge-

    filterten und vorsortierten Daten (die wiederum berwiegend Zahlen oder einen

    eng beschrnkten Wortschatz enthalten) entstehen, geht zu Ende.

    Rein statistische Analysen und Korrelationen sind fr die zuknftigen Business-

    Anforderungen nicht mehr ausreichend genau. Es geht inzwischen darum, die

    Ergebnisse in einen logischen Zusammenhang mit allen zugehrigen Informationen

    zu bringen. Statistische Korrelationen mssen also durch semantische

    Korrelationen geprft, verfeinert und ergnzt werden. Nur durch eine neuartige

    Sicht auf groe strukturierte, unstrukturierte und teilstrukturierte Daten lassen sich

    wirklich neue Erkenntnisse gewinnen.

    Die semantische (inhaltliche) Analyse von groen Datenmengen macht

    Zusammenhnge sichtbar. Diese werden mit leistungsfhigen Darstellungs-

    funktionen visualisiert. Zu den fortgeschrittenen Verfahren, mit denen heute aus

    Daten auch neuartige semantische Korrelationen Erkenntnisse erarbeitet werden,

    gehrt das Natural Language Processing, die Verarbeitung natrlich sprachlicher

    Informationen. Erkenntnisse entstehen beispielsweise, indem Daten miteinander

    in Zusammenhnge gebracht werden, die zunchst von keinem statistischen bzw.

    mathematischen Verfahren als relevant erachtet werden oder errechnet werden

    knnen. Mit der semantischen Suche knnen zum Beispiel Ersatzteile in

    Ersatzteilkatalogen gefunden werden, auch wenn die konkrete Artikelnummer oder

    Artikelbezeichnung nicht bekannt ist. Mathematische bzw. statistische Verfahren

    knnen diese Beziehungen oft nicht entdecken. Ergebnisse auf Basis semantischer

    Analysen sind somit, je nach Zielstellung, fr den Anwender aussagekrftiger, und

    er wird umfassender informiert.

    Whrend sich statistische Verfahren funktional immer weiter aneinander

    angleichen und der Markt fr statistische Analysen in den nchsten Jahren, nach

    Experton-Erwartungen, auch eine Konsolidierung erleben wird, ist die semantische

    Analyse von Texten noch recht neu. Entsprechende Verfahren waren bisher eher

    auf nicht kommerzielle Anwendungen bei Nachrichtendiensten, Militr oder Polizei

    konzentriert.

    Statistische Verfahren sind sehr gut darin, die Hufung von Begriffen in einer

    Datenmenge zu erkennen. So ermitteln sie sehr treffsicher, wie oft zum Beispiel

    eine Kreditkartennummer im Zusammenhang mit einem Gegenstand (Handtasche,

    Grtel, Halstuch) verwendet wird und an welchen Orten die Kreditkarte benutzt

    wird. Solche statistischen Verfahren lassen sich beliebig komplex gestalten. So sind

    sie sehr gut geeignet, einen mglichen Kreditkartenbetrug anzuzeigen.

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    8/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 8

    Bei dem Natural Language Processing geht es jedoch nicht nur darum, statistische

    Aufflligkeiten (Hufungen von Begriffen in Transaktionsdatenstzen) eines

    Quelldatensatzes anhand von Synonymwrterbchern zu ermitteln. Es geht darum,Synonyme im richtigen Kontext dem richtigen Vorgang zuzuordnen: Kohle, Moos,

    Asche, Kies, Schotter knnen jeweils Begriffe fr Geld sein. Jeder dieser Begriffe hat

    aber auch seine eigene Bedeutung. Schotter ist selbstverstndlich im

    Zusammenhang mit Straenbau nicht als Synonym fr Geld zu werten, es sei denn,

    es geht in dem Beispiel um die Aufklrung von Schmiergeldzahlungen, wo dann der

    Schotter(die Bestechung) fr die Lieferung des Schotters (Baumaterial) gemeint

    sein knnte. Allein dieses Beispiel veranschaulicht bereits die Komplexitt des

    Themas.

    Relevante Anwendungsbereiche fr modernes und fortgeschrittenes NaturalLanguage Processing lassen sich in nahezu allen Branchensegmenten finden,

    angefangen bei Fertigungsunternehmen (Zuordnung von Varianten, Baugruppen

    und Bauteilen, in sehr umfangreichen Produkten wie einem Pkw) bis hin zu

    hoheitlichen Aufgaben (Strafverfolgung) ffentlicher Organisationen.

    Wie wichtig dies sein kann, zeigt beispielsweise die Dokumentation von Flugzeugen

    und Hubschraubern. Obwohl diese Verkehrsmittel in Serie gebaut werden, entsteht

    das einzelne Produkt mit der Losgre 1. Das bedeutet, dass auch die

    Dokumentation eines jeden Produkts von den anderen Produkten abweicht. Eine

    alte Redensart unter Flugzeugbauern sagt, dass ein neues Flugzeug erst dann dieZulassung erhlt, wenn das Gewicht der Dokumentation das Startgewicht der

    Maschine erreicht hat. Ebenso komplexe Textdokumente finden sich im

    wissenschaftlichen Bereich, wo es immer schwieriger wird, existierende wichtige

    Verffentlichungen zu finden. Auch bestimmten Berufsgruppen wie z.B.

    Patentanwlten und Forschern knnen semantische Verfahren das schnelle Finden

    relevanter Dokumente erleichtern, wenn beispielsweise riesige Datenbanken mit

    Patentschriften ausgewertet werden mssen. Die Auswertung von Fallstudien,

    Testreihen, Patentschriften und wissenschaftlichen Texten ist auch eine der

    aufwndigsten Aufgaben in der pharmazeutischen Industrie und in der

    medizinischen Forschung. Linguistische Mechanismen stellen bei der intelligenten

    Auswertung von Texten die gesuchten Zusammenhnge dar.

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    9/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 9

    4 Der Markt fr Big-Data-Suche und -Analyse

    Die Datenmengen, die in den Unternehmen anfallen, wachsen explosionsartig und

    auch die Anzahl und Art der Datenquellen (strukturiert, semi-strukturiert,

    unstrukturiert) wchst stetig, beispielsweise durch mobile Endgerte, die Erschlie-

    ung von Mail-Archiven, Datenbestnde aus Texten (darunter Produktdokumen-

    tationen, Projektberichte, Fallstudien, Wartungsanleitungen), Streaming-Media,

    Maschinendaten sowie Daten aus Social-Media. Die heute mgliche Vielfalt an

    Daten fhrt zu einer bisher nicht dagewesenen Komplexitt der Eingangsdaten.

    Doch diese Daten liefern an sich noch keine Wertschpfung, da erst die Gewinnung

    neuer Informationen aus den Daten einen Mehrwert fr das

    Anwenderunternehmen darstellt.

    Die Aggregation von Daten zu entscheidungsrelevanten Informationen, Ergebnisse

    aus Datenbankanfragen und die Entdeckung neuer Zusammenhnge wird

    darber hinaus in Echtzeit erwartet. Zudem werden die Informationen an immer

    mehr Nutzer im Unternehmen und in der gesamten Wertschpfungskette, vom

    Lieferanten bis zum Kunden, verteilt. Es wchst also nicht nur die Zahl der

    unterschiedlichen Datenquellen, sondern auch die Zahl der Verbraucher von neu

    gewonnen Informationen.

    Die Digitalisierung der Wirtschaft und des Alltags erzeugt in den Industrielndern

    immer mehr, auch komplexe, Daten, die immer hufiger auch als Text (also als

    geschriebene Sprache) entstehen. Untersuchungen zeigen, dass mittlerweile etwa

    70 bis 80 Prozent aller vorliegenden internen und externen Unternehmensdaten in

    unstrukturierter Form vorliegen. Herkmmliche statistische Verfahren sind daher

    nicht immer das Mittel der Wahl fr die Analyse von Big-Data.

    Dabei sieht die Experton Group Big Data als eine bergreifende Entwicklung hin zu

    komplexen IT-Szenarien wie beispielsweise im Gesundheitswesen (E-Health), im

    Straenverkehr (interaktive, sekundenaktuelle Verkehrs- und Routenplanung ber

    groe Geografien) und selbstverstndlich in der betriebswirtschaftlichen IT (die

    Verknpfung von BI mit Daten aus MES, ERP oder CRM).

    Hierbei sind immer mehr unstrukturierte Daten zu verarbeiten, die berwiegend

    aus Texten bestehen. Unstrukturiert sind diese Daten, weil sie keinen erkennbaren

    tabellen- oder listenartigen Aufbau haben. Es spielt auch keine Rolle, woher die

    Daten kommen.

    Strukturierte Daten lassen sich leicht mit mathematischen Verfahren verarbeiten.

    Je unstrukturierter die Daten sind, desto komplexer sind die Anforderungen an die

    Algorithmen. Jedoch liegen erst in der Komplexitt der Big-Data-Szenarien und der

    Daten selbst wirkliche Wettbewerbsvorteile.

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    10/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 10

    Die Komplexitt der Big-Data-Projekte setzt einen Kulturwandel in den

    Anwenderunternehmen voraus.

    Kulturwandel Schritt 1: Umdenken, denn Big Data lsst sich nicht als ROI ber x

    Jahre darstellen. Semantische Analysen wie mit der Software von Sinequa frdern

    neue und vor allem neuartige Erkenntnisse und somit neue datengetriebene

    Geschftsmodelle, die wiederum zustzliche Umsatzpotenziale ermglichen.

    Kulturwandel Schritt 2: Datensilos und hoheitliche Zuordnung von Daten im

    Unternehmen aufheben, damit ganz verschiedenen (berechtigten) Beteiligten der

    Zugriff auf die Rohdaten ermglicht wird. Keimzellen schaffen, in denen Big-Data-

    Ideen zu Big-Data-Szenarien werden. Den Mitarbeitern entsprechend der Data-

    Governance und der Big-Data-Ethik geeignete Freirume schaffen und lassen. Auchder spielerische Umgang mit semantischen Verfahren sollte dabei gebt werden.

    Kulturwandel Schritt 3: Leitungsentscheidungdarber, ob die Fachabteilung oder

    die IT-Abteilung fr die Exploration von Daten und den Aufbau von Big-Data-

    Szenarien zustndig ist bzw. ob hier eine Stabsfunktion fr das Unternehmen

    hilfreich ist. Oft ist es sinnvoll, eine allen Bereichen bergeordnete Instanz fr die

    Big-Data-Thematik zu schaffen.

    Kulturwandel Schritt 4: Neue Algorithmen finden statt eines Scale-outs

    vorhandener Lsungen. Wenn es bei Big-Data-Szenarien nicht nur darum geht, die

    Kennzahlenermittlung auf eine breitere Datenbasis zu stellen, sind auch seman-

    tische Analysen in Betracht zu ziehen.

    Mit dem spezifischen Ansatz der semantischen Textanalyse erffnet sich

    Anwendern eine neue Technologie fr die Erschlieung und Analyse polystruk-

    turierter Daten, die gleichermaen aus der Unternehmens-IT (ERP, CRM, u.a.)

    stammen knnen wie aus externen Quellen, darunter Social Media, Nachrich-

    tenkanle, E-Mails, Brodokumente oder Webseiten.

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    11/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 11

    Aus der Fhigkeit, diese Daten nicht nur statistisch auszuwerten, sondern logische

    Erkenntnisse zu gewinnen, ergeben sich eine Vielzahl denkbarer Anwendungen:

    Zielmarkt Denkbare Applikation Mglicher Beitrag von Sinequa

    Regierung/

    Behrden

    Erkennungsdienstliche Aufgaben

    Prvention

    Natural Language Processing,

    Spracherkennung, linguistische und

    semantische Analysen in vielen

    Sprachen

    Automobilindustrie Ersatzteilorganisation Natural Language Processing,

    korrekte Zuordnung von

    Artikelnummern selbst zu

    unscharfen Begriffen

    Call-Center/Kunden-

    untersttzung

    360-Grad-Sicht auf den Kunden Case Based Reasoning und

    Natural Language Processing,

    Erkennen der richtigen

    Zusammenhnge, auch wenn die

    verwendeten Begriffe nicht einer

    Normung entsprechen

    Versicherungen Risikominimierung Natural Language Processing und

    Case Based Reasoning fr

    semantische Analyse von

    Nachrichten zur Erkennung

    bestimmter Gefahren-Situationen

    und Verhaltensmuster

    Pharmazeutische

    Industrie

    Krzeres Time-to-Market Forschungsdatenbanken,

    Laborberichte und klinische

    Testreihen effizienter durchsuchen

    und redundante Projekte vermeiden

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    12/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 12

    5 Sinequa als Lsungsanbieter

    Sehr schnelle Analysen, unternehmensweites Durchsuchen von Datenbestnden

    und der vereinheitlichte Zugriff auf die Unternehmensinformationen (Unified

    Information Access) sind die Domne der Sinequa. Die Lsungen von Sinequa

    basieren auf Technologien fr die textuelle und inhaltliche - also fr die linguistische

    - Analyse. Die ausgereiften Content-Analytics-Funktionen von Sinequa ermglichen

    es Konzernen und ffentlichen Verwaltungen, relevante und wertvolle

    Informationen aus sehr groen und komplexen Datenbestnden sowie aus

    strukturierten und unstrukturierten Datenquellen zu gewinnen. Basierend auf den

    Ergebnissen jahrelanger sprachwissenschaftlicher Forschung kombiniert die

    flexible Softwarelsung semantische mit statistischer Analyse, stellt Zusammen-

    hnge in heterogenen, groen Datenmengen her und liefert Anwendern relevanteErgebnisse fr ihre Arbeitsprozesse. Sinequas hochgradig skalierbare Lsung

    durchsucht hunderte Millionen von Dokumenten und Milliarden von Datenbank-

    Records uerst effizient und versorgt bei Bedarf zehntausende Nutzer mit den

    richtigen Suchergebnissen. Die leistungsstarke Architektur sowie die Out-of-the-

    box-Konnektoren fr alle gngigen Unternehmensanwendungen und

    Datenquellen gewhrleisten eine schnelle und kosteneffiziente Implementierung

    und Integration in bestehende IT-Umgebungen. Viele Anwender in groen

    Unternehmen und Organisationen nutzen Sinequa bereits, um effizient auf

    geschftskritische Informationen zugreifen zu knnen. Zum renommierten

    Kundenkreis des Unternehmens zhlen Airbus, AstraZeneca, Atos, Biogen, Crdit

    Agricole, das franzsische Verteidigungsministerium, die Europische Kommission

    und Siemens.

    Eine Herausforderung ist fr die Anwender das Zusammenfhren von Daten. Viele

    Analyse-Lsungen setzen voraus, dass Adapter individuell entwickelt werden. Bei

    Sinequa ermglichen 140 Konnektoren die Erschlieung aller gngigen

    Datenquellen - von DOCX, PDF, TXT und CSV ber verschiedene zeilen- oder

    spaltenorientierte Datenbankformate bis hin zu Social Media und den nativen

    Formaten von Data Warehouses. Diese bernehmen auch bereits einen Teil der

    Verarbeitung. Zustzlich dazu hat Sinequa weitere Konnektoren seiner Big Data

    Such & Analyse-Plattform auch fr Third-Party-Cloud-Storage, Product-Lifecycle-

    Management-Systeme und Social-Media-Feeds entwickelt.

    Cloud-Dienste, ob privat, ffentlich oder hybrid, werden von groen Unternehmen

    aller Branchen immer intensiver genutzt. Sinequa-Kunden knnen jetzt die AWS-

    Cloud nutzen, um flexibler die Infrastruktur an ihren Bedarf anpassen zu knnen.

    So knnen zustzlich Millionen von Dokumenten und Milliarden von

    Datenbankeintrgen analysiert und gleichzeitig die Total Cost of Ownership fr die

    bentigte Infrastruktur gesenkt werden. Die Anwender profitieren von

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    13/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 13

    vollstndiger Transparenz bei der Suche und knnen Informationen ber Cloud-

    und Enterprise-Anwendungen schneller abrufen.

    Die Grundlage fr den Einsatz semantischer Verfahren ist die Entity Extraction, die

    Begriffe in Texten erkennt und sie mit verwandten Begriffen in Beziehung setzen

    kann. Unternehmensspezifische Synonymlisten und Ontologien knnen das Wissen

    ber Begriffe und deren Beziehungen verstrken. Anwender knnen daher nach

    Begriffen fragen, die nicht in den relevanten Texten vorkommen, und trotzdem eine

    relevante Antwort erhalten. So kann die Frage nach dem gelben Knopf an einer

    Maschine die entsprechende Beschreibung der Prftaste aus der Dokumentation

    liefern, auch wenn die Frage weder die genaue Artikelbezeichnung noch diesen

    Begriff enthlt.

    Es ist vorstellbar, dass zu Beginn der Arbeit mit einer NLP-Software irrtmliche

    Treffer (sogenannten false positives) angezeigt werden. Typischerweise werden

    diese von den Anwendern individuell markiert, wobei die Software dies

    interpretiert. Sinequa untersttzt diesen Lernprozess effektiv durch die Fhigkeit,

    nahezu beliebige Ontologien und Thesauren einlesen zu knnen, um die

    Anlernphase der Software zu verkrzen.

    Fr die Darstellung der Suchergebnisse werden Diagramme und andere

    Ergebnisprsentationen genutzt. Getreu dem Motto Ein Bild sagt mehr als tausend

    Worte haben sich fr die verschiedenen Arten von Erkenntnissen aus denDatenanalysen auch verschiedene Darstellungsformen durchgesetzt. Besonders

    populr sind zur Zeit beispielsweise Graphen. Sinequa beherrscht alle gegenwrtig

    typischen Arten von Charts, Diagrammen und Reports.

    Die Software von Sinequa wird in Deutschland direkt und ber ein Netz von

    Partnern vertrieben. Sinequa hat ihre Partnerlandschaft in den letzten Jahren und

    Monaten strategisch ausgebaut. Neue Allianzen und Partnerschaften gibt es zum

    Beispiel mit der Atos SE, die mit ihren 93.000 Beschftigten in 72 Lndern Projekte

    mit Big-Data-Content-Analyse auch auf Basis der Sinequa-Lsungen durchfhrt.

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    14/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 14

    6 Fazit

    Big-Data-Projekte sind komplex. Das Speichern und Auswerten von einigen hundert

    Terabytes ist dabei nur die Einstiegsdroge zu immer komplexeren Szenarien, und

    in der Komplexitt liegen die eigentlichen Wettbewerbsvorteile fr die Anwender,

    die so aus ihren Daten mehr und neue Informationen gewinnen knnen. Je

    komplexer die Datenquellen und -arten sind, desto wichtiger ist es, nicht nur

    statistische Verfahren zu nutzen, sondern die Inhalte durch linguistische Verfahren

    auch zu verstehen.

    Die Datenberge in den Unternehmen werden immer grer. Daher ist absehbar,

    dass Enterprise Search-Applikationen und -Lsungen zu wesentlichen - wenn nicht

    sogar Kern-Elementen - der Unternehmens-IT werden.

    Oftmals stellen sich Anwender, vor allen jene mit einer leistungsfhigen IT-

    Organisation, die Frage nach dem Make or Buy?. Der Aufwand fr die komplette

    Neuentwicklung einer semantischen Enterprise-Search-Anwendung wurde von der

    Experton Group in einem konkreten Projekt auf bestenfalls weit ber 24 Personen-

    jahre berechnet. Dabei waren ausreichend linguistisch erfahrene Softwareentwick-

    ler Teil der Berechnungsgrundlage. Ohne diese wrde der Aufwand fr eine

    Neuentwicklung um ein Vielfaches steigen. Auch der Aufwand fr eine Neuent-

    wicklung mit vorhandenen Tools und Open-Source-Komponenten darf nicht

    unterschtzt werden.

    Bei der Auswahl von Lsungen mit intelligenten semantischen Analysen nahezu

    beliebiger Daten ist es zudem oft besser, neue Wege zu beschreiten. Anwender, die

    sich zu sehr an Bekanntem orientieren, ben jene Wettbewerbsvorteile ein, die

    sich aus einem neuen, unvoreingenommenen Blick auf die Daten ergeben.

    Die Experton Group empfiehlt Anwendern aufgrund der Zunahme immer neuer

    Datenformate, seien sie strukturiert oder unstrukturiert, sehr intensiv ber

    zukunftssichere Analysemethoden nachzudenken und dabei die semantische

    Analyse in den Fokus zu rcken. Beschleunigungsverfahren wie In-Memory-

    Techniken oder Datenbankbeschleuniger schaffen durch die schnellere Lieferung

    von Ergebnissen Reserven fr weitere Iterationen, jedoch immer im Rahmen der

    vorherrschenden Denkwelten. Es gilt nun, diese Verfahren und Techniken mit

    intelligenter und zukunftssicherer Technologie, zur Gewinnung wirklich neuer

    Erkenntnisse, zu erweitern.

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    15/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 15

    7 Sinequa

    Sinequa ist eine der fhrenden Softwarefirmen im Markt fr Big Data Content-

    Analyse in Realzeit, Enterprise Search und Unified Information Access. Die

    ausgereiften Content Analytics-Funktionen der Sinequa-Lsung ermglichen es

    Konzernen und ffentlichen Verwaltungen, wertvolle Informationen aus sehr

    groen und komplexen Datenbestnden, aus strukturierten Anwendungen und

    unstrukturierten Datenquellen zu gewinnen. Basierend auf den Ergebnissen

    jahrelanger, sprachwissenschaftlicher Forschung kombiniert die flexible

    Softwarelsung semantische mit statistischer Analyse, stellt Zusammenhnge in

    heterogenen, groen Datenmengen her und liefert Anwendern relevante

    Ergebnisse fr ihre Arbeitsprozesse. Sinequas hochskalierbare Lsung durchsucht

    Milliarden von Dokumenten und Datenstzen in Datenbanken uerst effizient undversorgt zehntausende von Nutzern mit den fr sie relevanten Informationen. Die

    leistungsstarke Architektur sowie die gebrauchsfertigen Konnektoren fr alle

    gngigen Unternehmensanwendungen und Datenquellen gewhrleisten eine

    schnelle und kosteneffiziente Implementierung und Integration in bestehende IT-

    Umgebungen. Millionen von Anwendern in groen Unternehmen und

    Organisationen nutzen bereits Sinequa, um effizient auf geschftskritische

    Informationen zugreifen zu knnen. Zum renommierten Kundenkreis des

    Unternehmens zhlen Airbus, AstraZeneca, Atos, Biogen, Crdit Agricole, das

    franzsische Verteidigungsministerium, die Europische Kommission und Siemens.

    8 Experton Group AG

    Experton Group ist ein fhrendes IT-Research- und Beratungsunternehmen. Mit

    europaweit 80 erfahrenen Analysten untersttzen wir mittelstndische und groe

    Anwenderunternehmen bei der strategischen Planung und Umsetzung ihrer IT-

    Strategien. Zudem unterstrzt Experton Group IT-Anbieter in Strategie-,

    Marketing- und Wettbewerbsfragen.

  • 7/24/2019 Semantische Analysen mit Sinequa: Neues Whitepaper der Experton Group

    16/16

    Experton Group Whitepaper Durchblick durch Einblick

    Copyright Experton Group AG 16

    Impressum

    Herausgeber:Experton Group AGCarl-Zeiss-Ring 4

    D - 85737 IsmaningVorstand: Jrgen Brettel (Vorsitzender), Lutz Peichert, Nils BachmannAufsichtsratsvorsitzender: Wolfgang StbichAmtsgericht Mnchen HRB 158568

    Version 3Oktober 2015

    2015, Experton Group AG, Ismaning.