Warum NoSQL Datenbanken auf dem Vormarsch sind

  • Published on
    15-Apr-2017

  • View
    225

  • Download
    1

Embed Size (px)

Transcript

  • DAS RELATIONALE MODELL WEITERGEDACHTMARKLOGIC WHITEPAPER SEPTEMBER 2015

    Mit der Verarbeitung riesiger Mengen an vielfltigen und sich stndig wandelnden Daten in

    den unterschiedlichsten Formaten, mithilfe der relationalen Datenbanken auf die man seit 30Jahren baut,

    sind Unternehmen heute zunehmend berfordert. Aus diesem Grund denken fhrende Unternehmen

    das relationale Modell weiter und gehen zu einer neuen Generation von Datenbanken ber: MarkLogic.

  • EINSCHTZUNG Braucht Ihr Unternehmen Vernderung, oder kommen Sie Ihrem Eindruck nach mit Ihren Daten gut zurecht? Die Antworten auf die

    nachstehenden Fragen ermglichen eine grundlegende Einschtzung zu diesem Thema. Je hufiger die Antwort Ja lautet, desto

    wahrscheinlicher ist es, dass Ihre derzeitigen Datenbanken den Anforderungen Ihres Unternehmens nicht mehr gerecht werden.

    JA NEIN

    FRAGEN ZUM UNTERNEHMEN

    1. Gibt es unternehmenswichtige Daten, die nicht in einer Datenbank

    gespeichert sind?

    2. Bestehen mehrere verschiedene Datenbanken, die im Wesentlichen die

    gleichen Daten enthalten?

    3. Sind mehrere Datenquellen vorhanden, die nicht zentral durch die IT-

    Abteilung verwaltet werden?

    4. Gibt es groe IT-Projekte, die das Budget gesprengt haben oder gescheitert

    sind?

    5. Sind manche Datenbankschemata so kompliziert, dass nur eine Handvoll

    Experten kompetent Auskunft darber geben knnen?

    FACHLICHE FRAGEN

    6. Kommt es vor, dass die Datenmodellierung die Anwendungsentwicklung

    aufhlt oder behindert?

    7. Gibt es relationale Tabellen, in denen Spaltennamen gendert oder

    umschrieben wurden, damit es halt irgendwie funktioniert?

    8. Gibt es monatlich mehrere Datenbankschema-nderungen, und sind

    manche davon erfolglos?

    9. Verschlingt die Frage der Skalierung viel Zeit und Ressourcen?

    10. Kommt es zu Leistungsproblemen und Fehlern, die mglicherweise auf

    komplizierte Middleware zurckzufhren sind?

  • InhaltEinleitung ..................................................................................................................................................................1

    Das Zeitalter von Big Data ...................................................................................................................................2

    Volume Menge

    Velocity Geschwindigkeit

    Variety Vielfalt

    Veracity Echtheit

    Variability Vernderlichkeit

    Versunken im Morast der Komplexitt ...................................................................................................................3

    Datensilos und ETL

    Schatten-IT-Prozesse und Sicherheitslcken

    Hohe Kosten, gescheiterte Projekte und Innovationsunfhigkeit

    Die Untauglichkeit relationaler Datenbanken ........................................................................................................4

    Nicht dafr konzipiert, mit Vernderung umzugehen

    Nicht fr heterogene Daten konzipiert

    Nicht auf Skalierbarkeit und Elastizitt ausgerichtet

    Nicht fr heterogene Workloads konzipiert

    Eine Datenbank der neuen Generation fr die Daten von heute .........................................................................8

    berblick ber die Alleinstellungsmerkmale von MarkLogic

    Fhrende Unternehmen auf Erfolgskurs mit MarkLogic

    Neue Mglichkeiten fr Ihre Daten jenseits des relationalen Modells ..............................................................12

    Empfohlene weitere Schritte

    Weitere Informationen

  • EINLEITUNGDie vergangenen Jahrzehnte waren von einer rasanten

    technischen Entwicklung geprgt, und unsere Art zu

    wirtschaften hat sich dadurch in jeder Hinsicht verndert.

    Heute werden mehr Daten als je zuvor erfasst. Unternehmen

    haben immer neue Ideen fr noch grere und intelligentere

    Anwendungen. Man sollte also meinen, dass sich auch die

    Datenbanken entsprechend gewandelt haben schlielich

    speichern die Unternehmen in ihnen ihren wichtigsten Besitz,

    nmlich ihre Daten. Dies trifft aber weitgehend nicht zu.

    Die vorherrschende Technologie fr die Speicherung und

    Verwaltung von Daten die relationale Datenbank sieht noch

    immer ungefhr so aus wie zum Zeitpunkt ihrer Einfhrung

    vor mehr als dreiig Jahren. Damals galten Daten als wenig

    umfangreich, sauber, gut strukturiert und statisch, denn nur

    in dieser Form konnte man sie speichern. In Wirklichkeit sind

    Daten aber ganz anders. Heutzutage sehen sich Unternehmen

    einer Welt mit umfangreichen, schnelllebigen, vielfltigen und

    volatilen Daten gegenber. Sie arbeiten nicht mehr blo mit

    einer Handvoll an Systemen, sondern mit Hunderten davon

    sowie mit Petabytes an Daten.

    Die neue Welt des Big Data bringt spannende Chancen

    mit sich, doch allzu oft wird sie als eine von vielen

    Herausforderungen abgetan, die nur die IT-Abteilung zu

    interessieren haben. IT-Abteilungen sind heute grtenteils

    damit beschftigt, berhaupt den Kopf ber Wasser zu halten,

    haben sie es doch mit einem komplexen Netz aus Datensilos

    und hufigen ETL-Prozessen (Extrahieren, Transformieren,

    Laden) zur Verschiebung von Daten zu tun. In diesem Klima

    basteln sich dann Mitarbeiter und einzelne Abteilungen

    ihre eigenen Lsungen. Inoffizielle Schatten-Prozesse

    machen sich breit, und es kommt zu Sicherheitslcken. In

    allen Branchen sind heute hohe Kosten und zeitintensive

    Projektablufe zur Norm geworden. Die Unternehmen sind

    mit den stndigen Wartungszyklen zu sehr gefordert, um

    sich darauf konzentrieren zu knnen, all ihre Daten mglichst

    gut zu verwerten. Bis zu einem gewissen Grad sind all diese

    Herausforderungen darauf zurckzufhren, dass man mit

    relationalen Datenbanken Probleme zu lsen versucht, die

    dafr nie gedacht waren.

    Heutzutage knnen Unternehmen nicht mehr blind auf

    das uniforme und unflexible relationale Modell bauen.

    Angesichts des herrschenden Vernderungsdrucks gehen

    sie zu neuen Arten von Datenbanken ber. MarkLogic ist

    bei diesem Generationenwechsel an vorderster Front und

    bietet eine Datenbank, die fr die Daten von heute besser

    gewappnet ist. Sie berzeugt mit einem flexibleren Modell

    fr das Speichern, Verwalten und Durchsuchen riesiger und

    vielfltiger Datenmengen, ohne dabei Abstriche bei den

    Unternehmensfunktionen zu machen, die ein moderner

    Betrieb verlangt. Genau diese einzigartige Kombination hat

    es fhrenden Unternehmen ermglicht, das relationale Modell

    weiterzudenken und so ihre Daten besser zu verwerten als

    jemals zuvor.

    VERNDERUNG WOZU?Mit der Verarbeitung ihrer vielfltigen und sich stndig wandelnden Daten in den unterschiedlichsten Formaten sind

    Unternehmen heute zunehmend berfordert. Nur durch neue Anstze knnen sie Herr dieses Problems werden und

    ihr Risiko minimieren, schneller intelligentere Anwendungen entwickeln und ihre Daten betriebswirtschaftlich besser

    verwerten.

    20

    30

    40

    50

    Strukturiert

    2013

    Unstrukturiert

    4,4 ZB10

    2020

    Herausforderung, alle Daten zu speichern, zu verwalten und abzufragen

    44 ZB

    Die rasante Zunahme heterogener Daten

    OLTP

    WarehouseReferenz-

    daten

    Data Marts

    ETL ETL

    ETL

    ETL ETL

    Unstrukturierte DatenArchive

    1

  • DAS ZEITALTER VON BIG DATAAufgrund der Grenzen der damaligen Technologie sahen Daten

    frher immer gleich aus. Sie gelangten langsam und geordnet

    in Rechenzentren und waren sauber in prkonfigurierten

    Zeilen und Spalten in miteinander verbundenen Tabellen

    organisiert. Vernderungen gingen langsam vor sich, sowohl

    in betriebswirtschaftlicher als auch in informatischer Hinsicht,

    und dies war auch kein Problem. Doch das waren die 80er-

    Jahre, und heute stellt sich die Situation ganz anders dar.

    Die moderne Welt des Big Data kennt drei Prinzipien, auf

    Englisch gerne als die drei Vs bezeichnet: Volume, Velocity,

    Variety Menge, Geschwindigkeit, Vielfalt. Zwei weitere Vs

    gewinnen ebenfalls zunehmend an Bedeutung: Veracity und

    Variability Echtheit und Vernderlichkeit. All diese Vs laufen

    auf eine zusammenfassende Erkenntnis hinaus: Die Daten von

    heute sind umfangreich, schnelllebig, komplex und vernderlich.

    VOLUME MENGEDie digitale Welt wchst jhrlich um 40%. Der weltweite

    Datenbestand drfte von 2013 bis 2020 von 4,4Zettabyte

    auf 44Zettabyte anwachsen (ein Zettabyte entspricht einer

    Billion Gigabyte).1 Papier hat als Speichermedium ausgedient,

    Datenbanken haben diese Rolle bernommen und das heit:

    Sie mssen alles speichern knnen. Unternehmen mssen heute

    mit mehr Daten in vielfltigeren Formen auf mehr verschiedenen

    Systemen umgehen als je zuvor und sollen dies auch noch effizient,

    sicher und kostengnstig bewerkstelligen. Die Datenspeicherkosten

    sinken weiterhin, und Verbraucher wie Behrden erwarten somit

    von den Unternehmen, dass sie alles speichern.

    VELOCITY GESCHWINDIGKEITDie moderne Welt ist in jeder Hinsicht schnelllebiger als frher.

    Daten entstehen schneller und verndern sich schneller. Auch

    was man aus den Daten erschlieen will, ndert sich schneller

    angesichts stndig neuer Geschftsanforderungen. Unternehmen

    mssen rasch wandelnde Marktdynamiken, nderungen in der

    Unternehmungsfhrung, On-Demand-Dienste oder bernahmen

    und Abspaltungen bewltigen. Entscheidungen werden heute

    innerhalb von Minuten und nicht Tagen getroffen, und die Daten

    zur Untermauerung dieser Entscheidungen mssen mit weniger

    1 IDC. Digital Universe. April2014

    Latenz und hherer Effizienz im richtigen Format bereitgestellt

    werden. Ob es um Daten fr Sportveranstaltungen oder die

    Betrugsbekmpfung in einer Bank geht: Echtzeitdaten sind nicht

    mehr optional, sondern ein absolutes Muss. Auch der Zeitrahmen

    fr die Entwicklung von Anwendungen ist knapper geworden.

    Man rechnet in Wochen, nicht mehr in Jahren. Die so entwickelten

    Anwendungen mssen dann Massen an Benutzern bedienen

    Benutzer, die nicht lange warten wollen, weniger produktgebunden

    sind und einen hheren Grad an Personalisierung wnschen.

    VARIETY VIELFALTVielfalt ist unter den groen Vs eine der grten

    Herausforderungen. Die Daten von heute sind deutlich

    vielfltiger und heterogener als frher nur etwa 20% davon

    sind strukturiert (z.B. transaktionale oder tabellarische

    Daten), 80% hingegen unstrukturiert (z.B. Dokumente,

    Textnachrichten, E-Mails, Bilder oder Videos).2 Die neu

    verfgbaren unstrukturierten Datenquellen sind zweifellos

    problematisch. In einer Studie gaben 64Prozent aller

    befragten Unternehmen an, dass der Hauptgrund fr die

    Erwgung eines neuen Big Data-Ansatzes die Bewltigung

    der vielen unterschiedlichen neuen Echtzeitdatenquellen

    sei.3 Doch noch problematischer ist womglich die Vielfalt

    an strukturierten Daten. Unternehmen haben Mhe, mit

    den vielen verschiedenen Formen, Gren und Arten an

    schnell wachsenden und vernderlichen strukturierten Daten

    fertigzuwerden. Neue Anwendungen oder auch Fusionen

    und bernahmen sowie die Wiederverwendung von Daten

    fr einen anderen Zweck fhren oft zu groen Unterschieden

    zwischen strukturierten Daten.

    VERACITY ECHTHEITEchtheit hat mir der Zuverlssigkeit bzw. Integritt der Daten

    zu tun. Daten sind Goldwert, und Unternehmen scheuen

    keine Mhen, um sicherzustellen, dass ihre Daten richtig

    und in keiner Weise beschdigt sind. Damit wird es immer

    wichtiger, die Herkunft bzw. den Lebenszyklus der Daten

    nachzuverfolgen: Wann wurden die Daten erfasst? Woher

    kommen sie? Wie und von wem wurden sie bearbeitet? Wie

    lange sollen sie gespeichert bleiben? Wie relevant sind sie fr

    2 Khan et al. Big Data: Survey, Technologies, Opportunities, and Challenges. Scientific World Journal, 2014

    3 New Vantage Partners. Big Data Executive Survey: Themes & Trends. 2012

    Die drei Vs von Big Data laufen auf eine zusammenfassende Erkenntnis hinaus: Die Daten von heute sind umfangreich, schnelllebig, komplex und vernderlich.

    2

  • einen bestimmten Zweck? Zustzlich sind Unternehmen an

    strenge Richtlinien fr den Umgang mit Daten gebunden, um

    den Zugriff der Benutzer auf die Daten auf granularer Ebene zu

    schtzen. Diese Fragen werden schon allein aus rechtlichen

    Grnden immer wichtiger, ganz zu schweigen vom Potenzial

    fr eine ausgefeiltere Datenanalytik.

    VARIABILITY VERNDERLICHKEITUnter Vernderlichkeit verstehen wir die Mehrdeutigkeit von

    Daten je nach Kontext. Brian Hopkins, Principal Analyst

    bei Forrester, hat sich mit diesem Thema befasst und

    Vernderlichkeit als die Vernderlichkeit der Bedeutung (also

    Mehrdeutigkeit) in natrlichen Sprachen und die Rolle von Big

    Data bei der Lsung dieses Problems definiert.4 Ein Beispiel

    wre das Wort Bank reden wir von einem Finanzinstitut

    oder einer Sitzgelegenheit? Doch hierbei geht es nicht nur

    um Sprache. Es bestehen auch Unterschiede zwischen den

    Benennungen grundlegender Entitten durch Benutzer und

    Datenmodellierer. Der amerikanische Bundesstaat North

    Carolina wird zum Beispiel manchmal zu N Carolina oder

    gar zu NC abgekrzt. Wie kann eine Datenbank erkennen,

    dass damit das Gleiche gemeint ist, oder berhaupt die Idee

    eines Bundesstaats verstehen? Menschen fllt es leicht,

    solche Dinge im Zusammenhang richtig zu interpretieren,

    doch den Datenbanken bereiten diese semantischen

    Herausforderungen Probleme. Je grer die Vielfalt an Daten,

    desto grer die Vielfalt an Benennungen fr Menschen, Orte

    und Dinge wodurch sich das Problem weiter verstrkt.

    VERSUNKEN IM MORAST DER KOMPLEXITTDie heutige Welt des Big Data sollte eigentlich als

    Riesenchance begriffen werden, doch allzu oft wird sie nur

    als eine Herausforderung unter vielen angesehen. Heutzutage

    verbringen die IT-Abteilungen die meiste Zeit damit, angesichts

    dieser Komplexitt einfach irgendwie den eigenen Kopf ber

    Wasser zu halten. Wenn sie aber nicht stattdessen das Ruder

    ergreifen, drohen sie das ganze Schiff zum Sinken zu bringen.

    4 Hopkins, Brian. Blogging From the IBM Big Data Symposium Big Is More Than Just Big, 2011

    DATENSILOS UND ETLDatensilos sind der Befragung nach das grte

    Erfolgshindernis im Big-Data-Bereich.5 Dies wird

    deutlich, wenn man sich die blichen komplexen

    Unternehmensdiagramme ansieht: Da sind inkompatible

    Altsysteme mit anderen ebenso inkompatiblen Altsystemen

    verwoben, und das Ergebnis ist eine hochkomplexe und

    fragile Architektur, in der die Daten weder austauschbar

    noch verwendbar sind. In den meisten Unternehmen sind

    womglich nur noch einige wenige Experten da, die die

    Zusammenhnge zwischen dieser Datenarchitektur und den

    komplizierten Geschftsregeln begreifen. Umso weniger

    berrascht es, dass bei den meisten Business-Intelligence-

    Initiativen die meiste Zeit dafr aufgewandt wird, die einzelnen

    Datenquellen erst einmal auszumachen und zu analysieren.6

    Datensilos sind nie beabsichtigt, sie entstehen im Zuge

    kurzsichtiger Lsungen. Die meisten Datenbanken sind nur

    fr eine bestimmte Anwendung oder eine bestimmte Art

    von Daten gedacht. Um die Daten aus diesen Datenbanken

    herauszulsen und dann in einer anderen Datenbank fr einen

    anderen Zweck einzusetzen, ist ein ETL-Prozess (Extrahieren,

    Transformieren, Laden) ntig, damit die Daten an das Schema

    der neuen Zieldatenbank angepasst werden knnen. ETL-

    Prozesse sind in den meisten Unternehmen laufend auf der

    Tagesordnung, und jedes Mal entsteht so ein neues Datensilo.

    Mit zunehmender Anzahl an Datensilos wird es immer

    schwieriger, diese zu warten und mi...

Recommended

View more >