Transcript
Page 1: RDBMS oder NoSQL – warum nicht beides?

RDBMS oder NoSQL– warum nicht beides?

München, den 22. Juni 2016Julian Endres & Daniel Schulz

Public – Company Confidential – Customer Confidential – Sensitive

Page 2: RDBMS oder NoSQL – warum nicht beides?

2TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Die Referenten

Julian EndresApplications Consultant bei Capgemini

Julian Endres ist Applications Consultant bei Capgemini im Bereich Big Data & Analytics. Er ist dabei im gesamten BI-Stack mit derzeitigem Fokus auf Technologien wie Qlik, Tableau, Hadoop und NoSQL-Datenbanken tätig.Im Bereich der nicht-relationalen Datenbanken widmet er sich besonders der Marktreife und Einsetzbarkeit von einzelnen Lösungen im Unternehmenskontext sowie Architekturen im Big-Data-Kontext.

Daniel SchulzSenior Solution Architect bei Capgemini

Daniel Schulz ist Senior Solution Architect bei Capgemini. Er arbeitet seit fünf Jahren im Big-Data-Bereich mit besonderem Fokus auf der Automotive-Branche. Er interessiert sich seit seiner Schulzeit für Statistik, seit dem Studium auch für Machine Learning und deren Einsatz in der Datenanalyse. Sein besonderes Interesse gilt Markovmodellen und der Performanceoptimierung von Software und Datenbanken.

© Capgemini 2016. All Rights Reserved

Page 3: RDBMS oder NoSQL – warum nicht beides?

3TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Agenda

© Capgemini 2016. All Rights Reserved

1. Einführung in NoSQL-Datenbanken

2. Diverse Anwendungsfälle

3. Big-Data-Referenzarchitektur

4. NoSQL-Evaluierungsframework

5. Innovation Dilemma & Résumé

Page 4: RDBMS oder NoSQL – warum nicht beides?

Einführung

Page 5: RDBMS oder NoSQL – warum nicht beides?

5TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Datenbanken – Historie

• RDBMS wurden zwischen den 1960er und 1980er Jahren als Wertschöpfung gegenüber Dateisystemen eingeführt

• Daten werden in Spalten und Reihen abgespeichert

• Tabellen werden über Primär- und Fremdschlüssel miteinander verknüpft

• RDBMs Vorteile:• Stellen v.a. Struktur sicher• Nutzer/Rollen-Konzept und Gewährleistung von Datensicherheit• Sicherstellung der Konsistenz und Transaktionssicherheit• Optimierung der Anfrage durch SQL• und weitere

• dieser Hintergrund ist wichtig • bei Betrachtung der Entwicklung von NoSQL sowie• bei Prognosen über die Zukunft des Datenbankenmarktes

© Capgemini 2016. All Rights ReservedNoSQL-Datenbanken

Page 6: RDBMS oder NoSQL – warum nicht beides?

6TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL = „Not only SQL“

Eine einheitliche Definition existiert nicht. NoSQL – Datenbanken erfüllen vielmehr charakteristische Eigenschaften in unterschiedlichem Maße.

Definition

NoSQL-Datenbanken – Begriff

© Capgemini 2016. All Rights ReservedNoSQL-Datenbanken

Page 7: RDBMS oder NoSQL – warum nicht beides?

7TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Datenbanken – Charakteristiken

• Betrieb in verteilten Clusterumgebungen für native horizontale Skalierung (Partitionierung und Replikation der Daten über mehrere Knoten)

• „Eventual consistency“ / gelockerte Konsistenz: Zugunsten von Verfügbarkeit und Performance ist die Konsistenz der Daten über die verteilten Partitionen nicht zu jedem Zeitpunkt sichergestellt.

Eine verteilte Datenbank kann nur zwei der drei Anforderungen von Konsistenz, Verfügbarkeit und Partitionstoleranz gleichzeitig garantieren. (CAP-Theorem von Brewer)*

• Gelockerte Schemarestriktionen und unterschiedliche Möglichkeiten der Datenstrukturierung

• Datenbankspezifische Abfragesprachen und APIs

• Häufig open-source Produkte mit Wurzeln in Web-Firmen

• Polyglotte Architekturen (z.B. zusammen mit Hadoop, RDBMS oder DW) oft in Big-Data-Lösungen umgesetzt

Consistency

Availability PartitionTolerance

* Vereinfachte Darstellung. Mehr Informationen: http://www.infoq.com/articles/cap-twelve-years-later-how-the-rules-have-changed

© Capgemini 2016. All Rights Reserved

CAP-Theorem

NoSQL-Datenbanken

Page 8: RDBMS oder NoSQL – warum nicht beides?

8TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Fokus von Datenlösungen im Big Data Kontext

© Capgemini 2016. All Rights Reserved

Velocity

VarietyVolumeHadoop (HDFS)

NoSQL

Data Warehouses(OLAP)

In-memory & event processing tools

Filesysteme

NoSQL-Datenbanken

Page 9: RDBMS oder NoSQL – warum nicht beides?

TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Datenbanken – Typische fachliche Anwendungsfälle

© Capgemini 2016. All Rights Reserved

9

• Web & Mobile Applikationen (Caching, Leaderboards, Latency kritische Anwendungen, Online Games, Sessions, Personalisierung)

• Soziale Netzwerke

• Log- und Sensordaten aus dem Internet-of-Things-Bereich (z.B. real-time Tracking von Maschinendaten)

• Customer 360° View

• Analytics (Datenanalyse, Betrugserkennung, MapReduce)

• … und mehr

NoSQL-Datenbanken

Page 10: RDBMS oder NoSQL – warum nicht beides?

TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Datenbanken – Typische technische Anwendungsfälle

© Capgemini 2016. All Rights Reserved

10

• Hohes Datenvolumen und lineare Skalierbarkeit

• Einsatz von Commodity Hardware

• Flexible Datenschemata (z.B. Änderungen am Datenmodell in agilen Umfeldern)

• Spezielle Abfragen (z.B. Geoqueries)

• Globale Verteilung der Daten (Replikation)

1 0 0 1 01 0

0 1

0 11 1 0

1 0 1 1

0 0 1 1 1 0 1

0 1 0 0 1 1 0 1

1 0 1 0 1 1 0 0

1 0 1 1

NoSQL-Datenbanken

Page 11: RDBMS oder NoSQL – warum nicht beides?

11TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Datenbanken – Datenschemata

Dokumentorientiert

SpaltenorientiertKey-Value

Graph

© Capgemini 2016. All Rights Reserved

Relational NoSQL

NoSQL-Datenbanken

Page 12: RDBMS oder NoSQL – warum nicht beides?

TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Map Reduce: Parallelisierte und verteilte Verarbeitung, bei der Datenin gruppierte Key-Value Paare aufgeteilt und zusammengeführt (map) undsortiert (reduce) werden. Dies erfordert häufig speziell auf den Anwendungsfall abgestimmte Skripte.

Proprietäre Abfragesprachen: Sind dem jeweiligen Datenschema angepasst und um spezifische Funktionen erweitert. Zur Integration in Systeme werden proprietäre APIs und Frameworks benötigt. Beispiele:

RESTful HTTP Argumente: URL kodierte HTTP Anfragen mittels GET und POST. Austauschformat häufig JSON.GET http://127.0.0.1:5984/database/document

SQL: Spezifische Übersetzungsframeworks existieren oder Abfragesprachen sind daran angelehnt z.B. CQL von Cassandra.

NoSQL-Datenbanken – Abfragen

© Capgemini 2016. All Rights Reserved

12

Bildquelle: https://de.wikipedia.org/wiki/Datei:MapReduce2.svg

Besetzung der Filme beginnend mit ‚T‘ / Graph-DB Neo4j: db.restaurants.find({ location:

{ $geoWithin: { $centerSphere: [ [ -73.93414657, 40.82302903 ],

5 / 3963.2 ] } } })

MATCH (actor:Person)-[:ACTED_IN]->(movie:Movie) WHERE movie.title STARTS WITH "T“RETURN movie.title AS title, collect(actor.name) AS cast ORDER BY title ASC LIMIT 10;

Restaurants im Umkreis / MongoDB:

NoSQL-Datenbanken

Page 13: RDBMS oder NoSQL – warum nicht beides?

13TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Googles Trend für “NoSQL” – Interesse stieg ~2010 sprunghaft an

Realisierungen könnten zeitlich versetzt nachziehen

© Capgemini 2016. All Rights ReservedNoSQL-Datenbanken

Page 14: RDBMS oder NoSQL – warum nicht beides?

14TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Googles Trend für Terme NoSQL & RDBMS

Gezeitenwechsel zwischen RDBMS und NoSQL bei Interesse erkennbar

© Capgemini 2016. All Rights ReservedNoSQL-Datenbanken

Page 15: RDBMS oder NoSQL – warum nicht beides?

15TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL - Datenbanken – Pro & Contra

Pro + Con -

zu viele DB Produkte, Einsetzbarkeit in

Unternehmen häufig unklar

oft knappe Verfügbarkeit von erfahrenen Kollegen &

mangelhafte Dokumentation

fehlende Standards, Abfragesprachen &

Best Practices

gelockerte Konsistenz

Vielfalt an Produkten

oft Lizenz-freie Software

vielfältige und flexible Datenschemata

native Skalierbarkeit, hohe Performance &

Fehlerresistenz

© Capgemini 2016. All Rights ReservedNoSQL-Datenbanken

Page 16: RDBMS oder NoSQL – warum nicht beides?

Knowledge-Management für Automotive-Wissenschaft

Page 17: RDBMS oder NoSQL – warum nicht beides?

18TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Vision des Kunden war Übersicht in großem Dokumentenfundus

Ziel war schnelles Finden von R&D-Papern nach Schlagwörtern & Inhaltsbeziehungen in Automotivedomäne

© Capgemini 2016. All Rights Reserved

• Parsen, Indizierung und Persistieren von Forschungsberichten aus Automobilbau• Finden von Dokumenten nach Suchtermen• Graph von untereinander abhängigen Dokumenten• Aufdecken von inhaltlichen Beziehungen – sog. „Content-derived Metadata“, wie

• Autoren,• Forschungsfeldern,• Abteilungen,• explizite Referenzen und inhaltliche, implizite Verweise,• zeitliche Abhängigkeiten,• etc.

Anwendungsfälle Knowledge-Management für Automotive-Wissenschaft

Page 18: RDBMS oder NoSQL – warum nicht beides?

19TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Data Hub kommt ohne RDBMS zur Steicherung aus

Ziel war schnelles Finden von Wissenschaftspapern nach Schlagwörtern und Inhaltsbeziehungen für R&D

© Capgemini 2016. All Rights Reserved

menschliche Anwender

Dokumente

Data Hub

Anwendungsfälle Knowledge-Management für Automotive-Wissenschaft

Page 19: RDBMS oder NoSQL – warum nicht beides?

20TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Lessons Learned

© Capgemini 2016. All Rights Reserved

Hadoop ist• günstiger, skalierbarer, ausfall-sicherer Massenspeicher• mächtiges Framework zur Speicherung von riesigen Mengen an Rohdaten als OLAP-System• entscheidendes Bottleneck war damals Nahe-Echtzeitanfrage der Daten kein OLTP-System• relativ komplex – auch damals, als es deutlich weniger Komponenten dafür gab• weniger Anwender-freundlich als BI-Tools

Anwendungsfälle Knowledge-Management für Automotive-Wissenschaft

Page 20: RDBMS oder NoSQL – warum nicht beides?

Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Page 21: RDBMS oder NoSQL – warum nicht beides?

22TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Automotive-Kunde wollte riesige Datenmenge diverser Struktur verarbeiten können

Lösung ist Data Lake: RDBMS + NoSQL-System

• gesucht ist • skalierbares, ausfallsicheres, hoch-performantes System,• günstigem Massenspeicher für Rohdaten,• auch mit Tabellen-artiger Struktur,• mit geringen, laufenden Kosten,• welches weitestgehend zukunftssicher für kommende 30 Jahre ist

• Anforderungen für eine zentrale Umgebung v.a. für• Sales-Prognosen,• Aftersales-Analysen,• Simulationen für operative Planungen,• Datenimport von diversen, bestehenden, internen und externen Datenquellen sowie• generische Möglichkeit Applikationen auf eigenem Datenbestand auszuführen

© Capgemini 2016. All Rights ReservedAnwendungsfälle Rechencluster für Vorhersagen,

Applikationen & Automotive-Simulationen

Page 22: RDBMS oder NoSQL – warum nicht beides?

23TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Job-Offloading: RDBMS schickt große Datenmengen zur Aggregation in Hive ans Hadoop; Datenfluss mit Sqoop realisiert

Datenmengen zu groß für Auswertung in RDBMS – daher Auswertung in skalierbarem Hadoop-System

Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Aggregate

Detaildaten

© Capgemini 2016. All Rights Reserved

Page 23: RDBMS oder NoSQL – warum nicht beides?

24TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Ausführung eigenen Java-Codes auf Spark auf Detaildaten in Hadoops HDFS

System kann MPP-ähnlich beliebige Algorithmen in Spark, YARN und MapReduce ausführen

Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Aggregate

Detaildaten

Teilevorhersagen

© Capgemini 2016. All Rights Reserved

Page 24: RDBMS oder NoSQL – warum nicht beides?

25TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Hadoop-Plattform zur Speicherung von Daten sowie zur Ausführung von Applikationen & Algorithmen darauf

Oozie steuert gesamten Datenfluss (ETL) und Ausführung der Applikationen & Algorithmen

Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Aggregate

Detaildaten

Teilevorhersagen

© Capgemini 2016. All Rights Reserved

Page 25: RDBMS oder NoSQL – warum nicht beides?

26TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Anwender können mittels BI-Tool Tableau auf Daten in RDBMS und Hadoop zugreifen — Data Lake fühlt sich an, wie ein Datenpool

arbeiten i.d.R. auf RDBMS, da Antworten in Naheechtzeit; Drill-Through referenzierte Daten im Hadoop deutlich langsamer (im Minutenbereich) dafür Arbeit auf riesigen Datenmengen (Terabyte-Bereich) möglich

menschliche Anwender

Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Aggregate

Detaildaten

Teilevorhersagen

© Capgemini 2016. All Rights Reserved

Page 26: RDBMS oder NoSQL – warum nicht beides?

27TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Externe Quellsysteme können Daten in Streams und Batches einfügen

alle Datenformate sind beliebig strukturierbar, da Hadoops HDFS ein Rohdatenspeicher ist

menschliche Anwender

Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Aggregate

Detaildaten

Teilevorhersagen

© Capgemini 2016. All Rights Reserved

Page 27: RDBMS oder NoSQL – warum nicht beides?

28TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Weitere Evolution dieses Data Lake’s nutzt diverse RDBMS-Quellsysteme & NoSQL-Systeme

RDBMS und NoSQL sollen jeweilige Stärken ausspielen

© Capgemini 2016. All Rights Reserved

einige menschliche & viele technische Anwender

beigestelltes, erweiterndes RDBMS

zum Data Lake

RDBMS-Quellsysteme

Data Lake

Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Page 28: RDBMS oder NoSQL – warum nicht beides?

29TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Lessons Learned

kritisch beim Einsatz von Hadoop und Cassandra

© Capgemini 2016. All Rights Reserved

Hadoop• ist immer noch relativ komplex• ist weniger Anwender-freundlich als BI-Tools

• sehr gute Integration von Tableau in Hadoop und Cassandra• gute Integration in DWH-Systeme

• ist deutliche Schwierigkeiten es Datenschutz-konform zu betreiben• ist deutlich langsamer als Cassandra in Beantwortung von Anfragen durch Latenz im Master/Slave-Design

Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Page 29: RDBMS oder NoSQL – warum nicht beides?

30TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Lessons Learned

weitere Aspekte von Hadoop und Cassandra

© Capgemini 2016. All Rights Reserved

Hadoop• ist günstiger, skalierbarer, ausfall-sicherer, durchgehend verfügbarer Massenspeicher• ist mächtiges Framework zur Speicherung von riesigen Mengen an Rohdaten als OLAP-System• Caches, Datenbanken und Komponenten ermöglichen auch Nahe-Echtzeitanfragen als OLTP-System• Komponenten, wie Hive, Impala & Spark SQL, ermöglichen

• nahezu den Ersatz eines DWH durch Hadoop• Job-Offloading vom DWH nach Hadoop

• ist relativ Linux-affin in Nutzung

Cassandra• benötigt vorher bekanntes Schema und mglw. Spiegeltabellen je Anfragemuster

führt mglw. zu doppelter Replikation der Daten:• Replikationsfaktor im Design und• Spiegeltabellen / Materialisierte Sichten auf Anwendungsebene

• ist relativ Linux-affin in Nutzung

Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen

Page 30: RDBMS oder NoSQL – warum nicht beides?

Qualitätssicherung auf Geodaten

Page 31: RDBMS oder NoSQL – warum nicht beides?

32TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Vision des Kunden

• Auswertung von Massenpositionsdaten aus GPS-Signalen• Geräte aus ganzem Monitoringgebiet liefern Daten an ein zentrales System über Mobilfunknetze• Nachverfolgung aller Bewegungen aller Geräte kurzfristig möglich• Auswertung tabellenartiger und graphenartiger Daten• Anwendung von Advanced-Analytics- resp. Machine-Learning-Methoden auf gesamtem Datenbestand und

seiner Historie• Kunde war Neueinsteiger in Big-Data-Analysen

© Capgemini 2016. All Rights ReservedAnwendungsfälle Qualitätssicherung auf Geodaten

Eingehende Daten sind…

• 1 TB bis 10 TB je Tag• OLAP-Analysen in ¼-Stunden-Batches• strukturiert oder unstrukturiert im Binärformat• ungleich verteilt• Datenlieferungen durch vier Systeme, teilweise voneinander abhängige und unabhängige Systeme

Page 32: RDBMS oder NoSQL – warum nicht beides?

33TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Der Speicher- & Rechencluster ist in jedem Knoten datenlokal aufgebaut

Ring-Architektur mit deckungsgleichem, datenlokalem Spark-Verbund

© Capgemini 2016. All Rights Reserved

Ausführungsschicht

Datenhaltung

Anwendungsfälle Qualitätssicherung auf Geodaten

Page 33: RDBMS oder NoSQL – warum nicht beides?

34TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Datenfluss von den Quellen zur Qualitätssicherung

Datenhaltung in bestenfalls zwei verbundenen Spark-on-Cassandra-Ringen zur Analyse

© Capgemini 2016. All Rights Reserved

Vorverarbeitung OLTP-Ring für hohen Data Ingest

Sensordaten von Transportmitteln

OLAP-Ring für Data Science

GPS-Daten

Anwendungsfälle Qualitätssicherung auf Geodaten

Page 34: RDBMS oder NoSQL – warum nicht beides?

35TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Austausch mit RDBMS

Sqoop überträgt Daten bidirektional zw. Relationalen Datenbanken und Cassandra

© Capgemini 2016. All Rights Reserved

Datenintegration

Ausführungsschicht

Datenhaltung

RDBMS

Anwendungsfälle Qualitätssicherung auf Geodaten

Page 35: RDBMS oder NoSQL – warum nicht beides?

36TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Zugriffsschicht für Datenanalysten

Nutzung von SQL, R, Python, SQL, Scala und Java möglich

© Capgemini 2016. All Rights Reserved

Analyselayer

Ausführungsschicht

Datenhaltung

Datenanalyst

Zeppelin

Anwendungsfälle Qualitätssicherung auf Geodaten

Page 36: RDBMS oder NoSQL – warum nicht beides?

37TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Abschied von Oracle

Oracle-ähnliche Technologie gesucht

• Oracle bei Kunden weitestgehend gesetzte, erprobte Technologie• Cassandra sehr viel ähnlicher als Hadoop zu Oracle-Lösungen

• SQL-Developer DevCenter• Enterprise Manager OpsCenter• u.a. Backup-Verfahren, Nutzer/Rechte/Rollen-Konzept, PreparedStatements sehr ähnlich zu Oracle• Umstellungen im Detail

© Capgemini 2016. All Rights ReservedAnwendungsfälle Qualitätssicherung auf Geodaten

Page 37: RDBMS oder NoSQL – warum nicht beides?

38TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Aufbau Spark-on-Cassandra-Cluster

Cassandra bevorzugte Wahl gegenüber Oracle und Hadoop

© Capgemini 2016. All Rights Reserved

• Cassandra bevorzugte Datenbank durch Einfachheit• Distribution DSE (DataStax Enterprise) enthält viele Machine-Learning-Lösungen aus Hadoop-Distributionen• schlanker, schneller und mächtiger Technologiestack• Aufbau Cluster mit 1 aktivem & 1 passivem Ring – synchronisieren sich fortlaufend gegenseitig

Anwendungsfälle Qualitätssicherung auf Geodaten

Page 38: RDBMS oder NoSQL – warum nicht beides?

39TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Aufbau Netzwerktopologie der Speicher- & Rechenknoten über Rechenzentren und Umgebungen

© Capgemini 2016. All Rights Reserved

Sampledaten bei Bedarf

Produktion mit Standby-Cluster

24/7 automatische Synchronisation der

Daten zweier Rechenzentren

Data Science & Entwicklung 24/7 automatische

Synchronisation der Daten zweier

Rechenzentren

Quell-systeme

Anwendungsfälle Qualitätssicherung auf Geodaten

Page 39: RDBMS oder NoSQL – warum nicht beides?

40TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Lessons Learned – so far

kritisch bei Einsatz von NoSQL

© Capgemini 2016. All Rights Reserved

vor allem Cassandra und HBase• können oft ähnlich hohes Datenschutzlevel erreichen, wie RDBMS• erfordern damit auch Kenntnis der Zugriffsmuster auf Daten – vor Realisierungsbeginn• erfordern oftmals Commodity-Hardware – Netzwerkspeicher, wie SAN oder NAS, kann ein Antipattern sein

DSE als Big-Data-Distribution ist• weniger komplex als Hadoop, da nur relevanteste Komponenten für Data Science enthalten sind• deutlich einfacher Datenschutz-konform bettreibbar

• strukturierte und umfassende Herangehensweise zur Beurteilung von NoSQL-Datenbanken benötigt Lösung folgt gleich

Anwendungsfälle Qualitätssicherung auf Geodaten

Page 40: RDBMS oder NoSQL – warum nicht beides?

Neo4j im UK-Public-Sektor

Page 41: RDBMS oder NoSQL – warum nicht beides?

TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Neo4j im UK-Public-Sektor

© Capgemini 2016. All Rights Reserved

43

Zielsetzung: Erkennung und Visualisierung von Zusammenhängen in Daten aus externen, internen und kommerziellen Quellen

Anwendergruppen: Experten Datenanalysten (ca. 6 Nutzer), Ermittler (ca. 1000 Nutzer in einem Jahr). Kurze Trainingszeit.

Technologien: Isoliertes, globales Behördennetzwerk, Greenplum PostgreSQL, Neo4j, Elasticsearch, node.js, nginx, Webapplikation

DB Größe: Millionen von neuen Datensätzen pro Tag

Hardware: Commoditiy, 4 Hexa Core Prozessoren, 128 GB RAM. Keine Cloud Umgebung.

Anwendungsfälle Neo4j im UK-Public-Sektor

Page 42: RDBMS oder NoSQL – warum nicht beides?

44TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

POLE: Party, Object, Location, Event

© Capgemini 2016. All Rights Reserved

POLE enthält alle Objekte und ihre Verbindungen.

Party: Logische Repräsentation eines Individuums

Object: Logische Repräsentation eines physischen Objekts

Location: Logische Repräsentation einer Ortes

Event: Logische Repräsentation eines Ereignisses

Party

Object Location

Event

MATCH (P1:person {name:’John’})-[R1:goes_to]->(L1:’conference’) RETURN L1;

Anwendungsfälle Neo4j im UK-Public-Sektor

Page 43: RDBMS oder NoSQL – warum nicht beides?

45TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

POLE: Party, Object, Location, Event in RDBMS

© Capgemini 2016. All Rights Reserved

Atomare Rohdaten werden erhalten

Daten werden transformiert und in POLE geladen

AtomareDaten

POLEDatenhaltung

DatenMatching(MDM)

Dat

en

Que

llen

Land

ing

Are

aA

naly

tisch

e D

aten

in

MP

P D

aten

bank

(G

reen

plum

)SemantischerLayer(virtuelle Views)

POLE

Party Object Location Event

EL ETL Views

Anwendungsfälle Neo4j im UK-Public-Sektor

CSV, TXT, XLS, Oracle, SQL

Page 44: RDBMS oder NoSQL – warum nicht beides?

46TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

CentOS Development Server 2

Architektur

© Capgemini 2016. All Rights Reserved

Staging

CentOS Development Server 1

Web Front End

CSVs POLE subset

POLE Verbindungen POLE Attribute

JSON

DI Studio

Anwendungsfälle Neo4j im UK-Public-Sektor

Page 45: RDBMS oder NoSQL – warum nicht beides?

47TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Herausforderungen

© Capgemini 2016. All Rights Reserved

POLE reduziert Entwicklungszeit und Fehleranfälligkeit und ist einfach verständlich, da die Komplexität nicht mit der Datentiefe oder Datenbreite zunimmt.

Es gibt aber viele POLE Objekte als Duplikate. Diese müssen zusammengeführt werden.

Hierfür wird ein probabilistisches Abgleichungsverfahren eingesetzt. Das Verfahren vergleicht viele Charakteristiken der Objekte und errechnet einen Übereinstimmungswert. Die Regeln zur Berechnung können von einem Algorithmus basierend auf allen Datensätzen bestimmt werden.

Ähnlich einem Gerichtsverfahren beurteilen die Regeln ( = Richter) unabhängig voneinander und kommen zu einer gemeinsamen Entscheidung.

„Namen-Richter“ „Tel. Nr.-Richter“ „Teilnehmer-ID Richter“

Record 1Name: Tom K. Klausen

Tel. Nr. (089) 872-1277

Teilnehmer-ID 872312318

Record 2Name: Thomas Klaussen

Tel. Nr. (089) 872-1727

Teilnehmer-ID 872412318

Anwendungsfälle Neo4j im UK-Public-Sektor

Page 46: RDBMS oder NoSQL – warum nicht beides?

48TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Datenhaltung

© Capgemini 2016. All Rights Reserved

• GreenPlum• Enthält als relationale Datenbank alle Daten.• Es ist sehr ineffizient Verbindungen zwischen Datenobjekten zu

finden da mehrere Joins nötig wären. Eine „real-time“ Performance wäre nicht gegeben.

• Neo4J: • Ist ideal zur Identifizierung von Verbindungen zwischen Objekten.• Auch die Skalierung wird als sehr gut empfunden.• Daten werden zwischen den Server repliziert. Eine Partitionierung

findet nicht statt.• Herausforderung: Automatisches, zeitbezogenes Löschen von

Daten.• Um verschiedene Sichten auf die Daten zu ermöglichen muss die

Graphdatenbank dupliziert werden.

• Für eine Freitextsuche ist Neo4j nicht ideal. Hierfür wird Elasticsearch verwendet.

Anwendungsfälle Neo4j im UK-Public-Sektor

Page 47: RDBMS oder NoSQL – warum nicht beides?

49TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Lessons-Learned

© Capgemini 2016. All Rights Reserved

NoSQL-Datenbanken…• sind i.d.R. stark wo RDBMS schwach sind – Marktnische muss für das Produkt existieren• hybrider Technologiestack kann Vorteile beider Systeme gewinnbringend nutzen• ein Datenmodell und Datenschema sind immer noch unerlässlich• RDBMS haben häufig Vorteile im Bereich der Sicherheit (Authentifizierung & Autorisierung)

Anwendungsfälle Neo4j im UK-Public-Sektor

Page 48: RDBMS oder NoSQL – warum nicht beides?

Big-Data-Referenz-Architektur

Page 49: RDBMS oder NoSQL – warum nicht beides?

TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Big-Data-Referenz-Architektur

© Capgemini 2016. All Rights Reserved

51

• Zweck ist es existierende, interne und externe Architekturentwürfe im Big Data Umfeld zu konsolidieren.

• Die standardisierte Architektur dient als Vorlage für globale Big Data Projekte von Capgemini.

• Sie listet die wichtigsten Bausteine für Big Data Architekturen auf.

• Sie vermittelt einen breiten und umfassenden Blick auf die Fragestellungen im Big Data Umfeld und adressiert alle Stakeholder wie Endanwender, IT-Architekten, Data Scientists und Entwickler in drei verschiedenen Sichten.

Big-Data-Referenz-Architektur

Page 50: RDBMS oder NoSQL – warum nicht beides?

TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Big-Data-Referenz-Architektur — Analytics

© Capgemini 2016. All Rights Reserved

52

Der Zweck von Analytics ist es… zusätzlichen Wert zu schaffen (value) indem basierend auf Erkenntnissen gehandelt wird (insights & act) welche aus der Analyse von Informationen gewonnen werden (analyzing

information) die auf Datenverarbeitungsprozessen aus verschiedenen Quellen aufbauen

(process & source data)

ValueActInsightAnalyzeInformationProcessSource data

Data flow

Requirements

Big-Data-Referenz-Architektur

Page 51: RDBMS oder NoSQL – warum nicht beides?

TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Big-Data-Referenz-Architektur — Technische Sicht

© Capgemini 2016. All Rights Reserved

54

Manage

Process

Analyze

Information

Sourcedata

Data ExplorationReporting Ad-hoc Querying

Search, Retrieval

Structured data tables

Unstructured Data Text, speech, …

Semistructured data JSON, XML, …

Data WarehouseData Asset Catalog

Index Tags Metadata

Data Lake

Analytical Sandbox

NoSQL databases

Key value store

Documentstore

Column store

Graph store

NLP

SQL databases

Row based

Column based

Streaming, Event

Processing

File system

Analytics Base

Tables

Data Mining, Machine Learning Next Best Action

High level ingestion and data preparation

Low level ingestion

ETL/ELT

Adv. Visualization

SQ

L

SQ

L

Java

Scala

Python

R

Batch Processing

Data virtualization

Big-Data-Referenz-Architektur

Page 52: RDBMS oder NoSQL – warum nicht beides?

NoSQL-Evaluierungsframework

Page 53: RDBMS oder NoSQL – warum nicht beides?

56TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Evaluierungsframework — Herausforderungen bei der Beurteilung von NoSQL Datenbanken

© Capgemini 2016. All Rights Reserved

Herausforderungen

Schnelle technologische

Veränderungen im NoSQL Bereich

Benchmarks häufig von Herstellern

beeinflusst

Dokumentationen vernachlässigen

Informationen

Informationen über weniger populäre

Datenbanken schwer zugänglichI/O Benchmarks als

Entscheidungs-grundlage zu wenig

NoSQL-Evaluierungsframework

Page 54: RDBMS oder NoSQL – warum nicht beides?

TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Evaluierungsframework

© Capgemini 2016. All Rights Reserved

57

Beispiel für I/O Benchmarks; Yahoo! Cloud Serving Benchmark.

NoSQL Datenbanken werden von den Herstellern häufig nur im Bereich der Skalierbarkeit und Performance von Lese- und Schreibvorgängen (I/O) verglichen.

NoSQL-Evaluierungsframework

Page 55: RDBMS oder NoSQL – warum nicht beides?

58TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Evaluierungsframework

© Capgemini 2016. All Rights Reserved

Auf der Suche nach der richtigen NoSQL Datenbank kann man sich nicht nur an I/O Performance Benchmarks orientieren. Zur umfassenden Bewertung gehören u.a. auch

das Architekturumfeld, die erwarteten Daten oder die nötigen Abfragen.

NoSQL-Evaluierungsframework

Page 56: RDBMS oder NoSQL – warum nicht beides?

59TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Evaluierungsframework — Berechnung des NoSQL Enterprise Readiness Index (NERI)

© Capgemini 2016. All Rights Reserved

1 – Anforderungen im Anwendungsfall bestimmen das Gewicht einzelner Evaluierungskriterien

2 – Definition der Evaluierungskriterien und ihrer vier Leistungsstufen

3 – Bewertung der Kriterienerfüllung der Datenbanken

4 – Summe der gewichteten Bewertungen ergibt den vergleichbaren NERI

NoSQL-Evaluierungsframework

Page 57: RDBMS oder NoSQL – warum nicht beides?

60TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Evaluierungsframework — Kriteriencluster

© Capgemini 2016. All Rights Reserved

Clustername Cluster Kriterien (zusammengefasst)

Globale Kriterien Verfügbarkeit bei verschiedenen Cloud Anbietern; Angebot an Service Levels; Qualität der Dokumentation; Generelles Interesse am Arbeitsmarkt (Anzahl an LinkedIn Stellen mit dieser Technologie); Mögliche Kosten

Datenmodell- und Speicherungskriterien Flexibilität des Datenschemas während der Laufzeit; Verfügbarkeit von verschiedenen Datentypen, von Speichermöglichkeiten (Disk, in-memory) und Indizes sowie von Kompression; Wege des Datenimports und Begrenzungen in der Datenbank- und Datensatzgröße.

Laufzeitkriterien (Dev Ops) Authorisierung und Authentifizierung; Backupmöglichkeiten; Logging; Monitoring des Datenbankzustands (z.B. in einem GUI)

Abfragekriterien Mächtigkeit der Abfragesprache(n) und der APIs; Schnittstellen zu populären Programmiersprachen; Erfüllung von Konsistenzkriterien

Kriterien zur verteilten Datenhaltung Verfügbarkeit, Konfigurierbarkeit und Ausfalltoleranz der Replikations- und Partitionierungsmechanismen; Mögliche Hardwareanforderungen

Performanzkritierien Verhalten der Latenz von Lese- und Schreibvorgängen unter sich erhöhender Last

1 0 0 1 01 0

0 1

0 11 1 0

Page 58: RDBMS oder NoSQL – warum nicht beides?

61TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Evaluierungsframework — Beispiel Leistungsstufen

© Capgemini 2016. All Rights Reserved

Code Kriteriumname Kriterium Beschreibung

Leistungsstufen

0 – nicht erfüllt

1 – schlecht erfüllt

2 – gut erfüllt 3 – sehr gut erfüllt

CM8 Indizierung Bewertet, ob es

die Möglichkeit

gibt die Daten zu

indizieren.

Keine Indizes

verfügbar.

Nur ein primär

Index ist möglich.

Ein primär und

ein sekundär

Index sind

möglich.

Ein primär und

mehrere

sekundäre

Indizes sind

möglich.

NoSQL-Evaluierungsframework

Page 59: RDBMS oder NoSQL – warum nicht beides?

62TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Evaluierungsframework — Beispiel Ergebnisse

© Capgemini 2016. All Rights Reserved

3

NE

RI 2

,243

NE

RI 2

,252

NE

RI 1

,893

NE

RI 1

,104

Possible max. weighed Rat-

ing

Apache Cas-sandra (2.1.8)

Riak KV (2.0) Redis (3.0.3) Memcached (1.4.24)

0.000

0.500

1.000

1.500

2.000

2.500

3.000

0.5980.413 0.441 0.455 0.356

0.634

0.513 0.518 0.4300.291

0.484

0.351 0.3510.238

0.133

0.655

0.4420.570

0.394

0.309

0.485

0.4000.371

0.329

0.014

0.144

0.124 0.000

0.048

0.000

Key-Value Databases

Performance Criteria - CP*Distributed Database Criteria - CD*CRUD Query Criteria - CQ*Run-Time Management Criteria - CR*Data Model and Storage Criteria - CM*Global Criteria - CG*

NoSQL-Evaluierungsframework

Page 60: RDBMS oder NoSQL – warum nicht beides?

63TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL-Evaluierungsframework — Zusammenfassung

© Capgemini 2016. All Rights Reserved

NoSQL Evaluation Framework

✓ theoriebasiert

✓ umfassend

✓ wiederholbar

✓ anpassbar und erweiterbar

✓ermöglicht eine strukturierte Analyse✓ gibt eine klare und nachvollziehbare Entscheidung

NoSQL-Evaluierungsframework

Page 61: RDBMS oder NoSQL – warum nicht beides?

Innovators Dilemma

Page 62: RDBMS oder NoSQL – warum nicht beides?

65TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

NoSQL

RDBMS

„Disruptive Innovation“ führt zu Technologie- & Marktwechsel – NoSQL-DBs sind Disruptive Innovationen gegenüber RDBMS

interessant ist vor allem Beispielanwender b da er aus beiden Märkten / Lösungstechnologien wählen kann

© Capgemini 2016. All Rights Reserved

tech

nisc

he L

eist

ung

Zeit

Entwicklung der

technischen Anforderungen Beispiele wo sich Anwendungsfälle heute befinden

⦿ a

⦿ b

⦿ c

Innovators Dilemma

Page 63: RDBMS oder NoSQL – warum nicht beides?

69TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Résumé

RDBMS oder NoSQL – wer wird gewinnen?

© Capgemini 2016. All Rights Reserved

Gewinner sind die jeweiligen Anwender mit sinnvollen NoSQL-Anwendungsfällen –

schon heute

Page 64: RDBMS oder NoSQL – warum nicht beides?

70TDWI-2016-RDBMS-vs-NoSQL-Master.pptx

Wir beantworten gerne Ihre Fragen!

Ihre Fragen?

© Capgemini 2016. All Rights Reserved

Page 65: RDBMS oder NoSQL – warum nicht beides?

The information contained in this presentation is proprietary.Copyright © 2015 Capgemini. All rights reserved.

www.capgemini.com

About CapgeminiMit 180.000 Mitarbeitern in über 40 Ländern ist Capgemini einer der weltweit führenden Anbieter von Management- und IT-Beratung, Technologie-Services sowie Outsourcing-Dienstleistungen. Im Jahr 2014 betrug der Umsatz der Capgemini-Gruppe 10,573 Milliarden Euro.

Gemeinsam mit seinen Kunden entwickelt Capgemini Geschäfts-, Technologie- sowie Digitallösungen, die auf die individuellen Kundenanforderungen zugeschnitten sind. Damit sollen Innovationen ermöglicht sowie die Wettbewerbsfähigkeit gestärkt werden. Als multinationale Organisation und mit seinem weltweiten Liefermodell Rightshore® zeichnet sich Capgemini durch seine besondere Art der Zusammenarbeit aus – die Collaborative Business ExperienceTM.

Erfahren Sie mehr unter http://www.de.capgemini.com.


Recommended