RDBMS oder NoSQL – warum nicht beides?

  • Published on
    16-Apr-2017

  • View
    1.440

  • Download
    0

Embed Size (px)

Transcript

<p>RDBMS oder NoSQL warum nicht beides?</p> <p>RDBMS oder NoSQL warum nicht beides?Mnchen, den 22. Juni 2016Julian Endres &amp; Daniel SchulzPublic Company Confidential Customer Confidential Sensitive</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>1</p> <p>Die ReferentenJulian EndresApplications Consultant bei Capgemini</p> <p>Julian Endres ist Applications Consultant bei Capgemini im Bereich Big Data &amp; Analytics. Er ist dabei im gesamten BI-Stack mit derzeitigem Fokus auf Technologien wie Qlik, Tableau, Hadoop und NoSQL-Datenbanken ttig.Im Bereich der nicht-relationalen Datenbanken widmet er sich besonders der Marktreife und Einsetzbarkeit von einzelnen Lsungen im Unternehmenskontext sowie Architekturen im Big-Data-Kontext.</p> <p>Daniel SchulzSenior Solution Architect bei Capgemini</p> <p>Daniel Schulz ist Senior Solution Architect bei Capgemini. Er arbeitet seit fnf Jahren im Big-Data-Bereich mit besonderem Fokus auf der Automotive-Branche. Er interessiert sich seit seiner Schulzeit fr Statistik, seit dem Studium auch fr Machine Learning und deren Einsatz in der Datenanalyse. Sein besonderes Interesse gilt Markovmodellen und der Performanceoptimierung von Software und Datenbanken.</p> <p> Capgemini 2016. All Rights ReservedTDWI-2016-RDBMS-vs-NoSQL-Master.pptx2</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>2</p> <p>Agenda Capgemini 2016. All Rights Reserved3TDWI-2016-RDBMS-vs-NoSQL-Master.pptxEinfhrung in NoSQL-Datenbanken</p> <p>Diverse Anwendungsflle</p> <p>Big-Data-Referenzarchitektur</p> <p>NoSQL-Evaluierungsframework</p> <p>Innovation Dilemma &amp; Rsum</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>3</p> <p>Einfhrung</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7NoSQL-Datenbanken HistorieRDBMS wurden zwischen den 1960er und 1980er Jahren als Wertschpfung gegenber Dateisystemen eingefhrt</p> <p>Daten werden in Spalten und Reihen abgespeichert</p> <p>Tabellen werden ber Primr- und Fremdschlssel miteinander verknpft</p> <p>RDBMs Vorteile:Stellen v.a. Struktur sicherNutzer/Rollen-Konzept und Gewhrleistung von DatensicherheitSicherstellung der Konsistenz und TransaktionssicherheitOptimierung der Anfrage durch SQLund weitere</p> <p>dieser Hintergrund ist wichtig bei Betrachtung der Entwicklung von NoSQL sowiebei Prognosen ber die Zukunft des Datenbankenmarktes</p> <p> Capgemini 2016. All Rights ReservedTDWI-2016-RDBMS-vs-NoSQL-Master.pptx5NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>5</p> <p>NoSQL = Not only SQL</p> <p>Eine einheitliche Definition existiert nicht. NoSQL Datenbanken erfllen vielmehr charakteristische Eigenschaften in unterschiedlichem Mae.</p> <p>DefinitionNoSQL-Datenbanken Begriff Capgemini 2016. All Rights ReservedTDWI-2016-RDBMS-vs-NoSQL-Master.pptx6NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>6</p> <p>NoSQL-Datenbanken Charakteristiken Betrieb in verteilten Clusterumgebungen fr native horizontale Skalierung (Partitionierung und Replikation der Daten ber mehrere Knoten)</p> <p>Eventual consistency / gelockerte Konsistenz: Zugunsten von Verfgbarkeit und Performance ist die Konsistenz der Daten ber die verteilten Partitionen nicht zu jedem Zeitpunkt sichergestellt.Eine verteilte Datenbank kann nur zwei der drei Anforderungen von Konsistenz, Verfgbarkeit und Partitionstoleranz gleichzeitig garantieren. (CAP-Theorem von Brewer)*</p> <p>Gelockerte Schemarestriktionen und unterschiedliche Mglichkeiten der Datenstrukturierung Datenbankspezifische Abfragesprachen und APIs Hufig open-source Produkte mit Wurzeln in Web-Firmen Polyglotte Architekturen (z.B. zusammen mit Hadoop, RDBMS oder DW) oft in Big-Data-Lsungen umgesetzt</p> <p>ConsistencyAvailabilityPartitionTolerance* Vereinfachte Darstellung. Mehr Informationen: http://www.infoq.com/articles/cap-twelve-years-later-how-the-rules-have-changed Capgemini 2016. All Rights ReservedTDWI-2016-RDBMS-vs-NoSQL-Master.pptx7CAP-TheoremNoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>7</p> <p>Fokus von Datenlsungen im Big Data Kontext Capgemini 2016. All Rights Reserved8TDWI-2016-RDBMS-vs-NoSQL-Master.pptxHadoop (HDFS)NoSQL</p> <p>Data Warehouses(OLAP)In-memory &amp; event processing toolsFilesystemeNoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>8</p> <p>NoSQL-Datenbanken Typische fachliche Anwendungsflle Capgemini 2016. All Rights Reserved9TDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p> Web &amp; Mobile Applikationen (Caching, Leaderboards, Latency kritische Anwendungen, Online Games, Sessions, Personalisierung)</p> <p> Soziale Netzwerke</p> <p> Log- und Sensordaten aus dem Internet-of-Things-Bereich (z.B. real-time Tracking von Maschinendaten)</p> <p> Customer 360 View </p> <p> Analytics (Datenanalyse, Betrugserkennung, MapReduce)</p> <p> und mehr</p> <p>NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>9</p> <p>NoSQL-Datenbanken Typische technische Anwendungsflle Capgemini 2016. All Rights Reserved10TDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p> Hohes Datenvolumen und lineare Skalierbarkeit</p> <p> Einsatz von Commodity Hardware</p> <p> Flexible Datenschemata (z.B. nderungen am Datenmodell in agilen Umfeldern)</p> <p> Spezielle Abfragen (z.B. Geoqueries)</p> <p> Globale Verteilung der Daten (Replikation)</p> <p>1 0 0 1 01 0 0 10 11 1 01 0 1 10 0 1 1 1 0 10 1 0 0 1 1 0 11 0 1 0 1 1 0 01 0 1 1</p> <p>NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>10</p> <p>NoSQL-Datenbanken Datenschemata</p> <p>DokumentorientiertSpaltenorientiertKey-ValueGraph Capgemini 2016. All Rights ReservedTDWI-2016-RDBMS-vs-NoSQL-Master.pptx11</p> <p>RelationalNoSQLNoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>11</p> <p>Map Reduce: Parallelisierte und verteilte Verarbeitung, bei der Datenin gruppierte Key-Value Paare aufgeteilt und zusammengefhrt (map) undsortiert (reduce) werden. Dies erfordert hufig speziell auf den Anwendungsfall abgestimmte Skripte.</p> <p>Proprietre Abfragesprachen: Sind dem jeweiligen Datenschema angepasst und um spezifische Funktionen erweitert. Zur Integration in Systeme werden proprietre APIs und Frameworks bentigt. Beispiele:</p> <p>RESTful HTTP Argumente: URL kodierte HTTP Anfragen mittels GET und POST. Austauschformat hufig JSON.GET http://127.0.0.1:5984/database/document</p> <p>SQL: Spezifische bersetzungsframeworks existieren oder Abfragesprachen sind daran angelehnt z.B. CQL von Cassandra.</p> <p>NoSQL-Datenbanken Abfragen Capgemini 2016. All Rights Reserved12TDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>Bildquelle: https://de.wikipedia.org/wiki/Datei:MapReduce2.svg</p> <p>Besetzung der Filme beginnend mit T / Graph-DB Neo4j: </p> <p>db.restaurants.find({ location: { $geoWithin: { $centerSphere: [ [ -73.93414657, 40.82302903 ], 5 / 3963.2 ] } } })MATCH (actor:Person)-[:ACTED_IN]-&gt;(movie:Movie) WHERE movie.title STARTS WITH "TRETURN movie.title AS title, collect(actor.name) AS cast ORDER BY title ASC LIMIT 10;Restaurants im Umkreis / MongoDB: </p> <p>NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7Googles Trend fr NoSQL Interesse stieg ~2010 sprunghaft anRealisierungen knnten zeitlich versetzt nachziehen Capgemini 2016. All Rights Reserved13TDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7Googles Trend fr Terme NoSQL &amp; RDBMSGezeitenwechsel zwischen RDBMS und NoSQL bei Interesse erkennbar Capgemini 2016. All Rights Reserved14TDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7NoSQL - Datenbanken Pro &amp; Contra Capgemini 2016. All Rights ReservedTDWI-2016-RDBMS-vs-NoSQL-Master.pptx15NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>15</p> <p>NoSQL Informationsquellen und weitere Lektre Capgemini 2016. All Rights Reserved16TDWI-2016-RDBMS-vs-NoSQL-Master.pptxhttp://nosql-database.org</p> <p>http://highscalability.com</p> <p>https://groups.google.com/forum/#!forum/nosql-discussion</p> <p>http://www.nosqlweekly.com/</p> <p>Edlich, S., Friedland, A., Hampe, J., &amp; Brauer, B. (2010). NoSQL; Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken. Mnchen: Hanser.</p> <p>Pokorny, J. (2013). NoSQL databases: a step to database scalability in web environment. International Journal of Web Information Systems, 9(1), 6982. doi:10.1108/17440081311316398</p> <p>Redmond, E., &amp; Wilson, J. R. (2012). Seven Databases in Seven Weeks. North. Dallas Texas; Raleigh, North Carolina: OReilly.</p> <p>NoSQL-Datenbanken</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>16</p> <p>Knowledge-Management fr Automotive-Wissenschaft</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7Vision des Kunden war bersicht in groem DokumentenfundusZiel war schnelles Finden von R&amp;D-Papern nach Schlagwrtern &amp; Inhaltsbeziehungen in Automotivedomne Capgemini 2016. All Rights Reserved18TDWI-2016-RDBMS-vs-NoSQL-Master.pptxParsen, Indizierung und Persistieren von Forschungsberichten aus AutomobilbauFinden von Dokumenten nach SuchtermenGraph von untereinander abhngigen DokumentenAufdecken von inhaltlichen Beziehungen sog. Content-derived Metadata, wieAutoren,Forschungsfeldern,Abteilungen,explizite Referenzen und inhaltliche, implizite Verweise,zeitliche Abhngigkeiten,etc.</p> <p>AnwendungsflleKnowledge-Management fr Automotive-Wissenschaft</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>18</p> <p>Data Hub kommt ohne RDBMS zur Steicherung ausZiel war schnelles Finden von Wissenschaftspapern nach Schlagwrtern und Inhaltsbeziehungen fr R&amp;D Capgemini 2016. All Rights Reserved19TDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>menschliche AnwenderDokumente</p> <p>Data Hub</p> <p>AnwendungsflleKnowledge-Management fr Automotive-Wissenschaft</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7Lessons Learned</p> <p> Capgemini 2016. All Rights Reserved20TDWI-2016-RDBMS-vs-NoSQL-Master.pptxHadoop istgnstiger, skalierbarer, ausfall-sicherer Massenspeichermchtiges Framework zur Speicherung von riesigen Mengen an Rohdaten als OLAP-Systementscheidendes Bottleneck war damals Nahe-Echtzeitanfrage der Daten kein OLTP-Systemrelativ komplex auch damals, als es deutlich weniger Komponenten dafr gabweniger Anwender-freundlich als BI-Tools</p> <p>AnwendungsflleKnowledge-Management fr Automotive-Wissenschaft</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7Rechencluster fr Vorhersagen, Applikationen &amp; Automotive-Simulationen</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7Automotive-Kunde wollte riesige Datenmenge diverser Struktur verarbeiten knnenLsung ist Data Lake: RDBMS + NoSQL-Systemgesucht ist skalierbares, ausfallsicheres, hoch-performantes System,gnstigem Massenspeicher fr Rohdaten,auch mit Tabellen-artiger Struktur,mit geringen, laufenden Kosten,welches weitestgehend zukunftssicher fr kommende 30 Jahre ist</p> <p>Anforderungen fr eine zentrale Umgebung v.a. frSales-Prognosen,Aftersales-Analysen,Simulationen fr operative Planungen,Datenimport von diversen, bestehenden, internen und externen Datenquellen sowiegenerische Mglichkeit Applikationen auf eigenem Datenbestand auszufhren</p> <p> Capgemini 2016. All Rights ReservedTDWI-2016-RDBMS-vs-NoSQL-Master.pptx22AnwendungsflleRechencluster fr Vorhersagen, Applikationen &amp; Automotive-Simulationen</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>22</p> <p>Job-Offloading: RDBMS schickt groe Datenmengen zur Aggregation in Hive ans Hadoop; Datenfluss mit Sqoop realisiertDatenmengen zu gro fr Auswertung in RDBMS daher Auswertung in skalierbarem Hadoop-SystemTDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>AnwendungsflleRechencluster fr Vorhersagen, Applikationen &amp; Automotive-SimulationenAggregateDetaildaten</p> <p> Capgemini 2016. All Rights Reserved23</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>23</p> <p>Ausfhrung eigenen Java-Codes auf Spark auf Detaildaten in Hadoops HDFSSystem kann MPP-hnlich beliebige Algorithmen in Spark, YARN und MapReduce ausfhrenTDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>AnwendungsflleRechencluster fr Vorhersagen, Applikationen &amp; Automotive-SimulationenAggregateDetaildatenTeilevorhersagen</p> <p> Capgemini 2016. All Rights Reserved24</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>24</p> <p>Hadoop-Plattform zur Speicherung von Daten sowie zur Ausfhrung von Applikationen &amp; Algorithmen daraufOozie steuert gesamten Datenfluss (ETL) und Ausfhrung der Applikationen &amp; AlgorithmenTDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>AnwendungsflleRechencluster fr Vorhersagen, Applikationen &amp; Automotive-SimulationenAggregateDetaildatenTeilevorhersagen</p> <p> Capgemini 2016. All Rights Reserved25</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>25</p> <p>Anwender knnen mittels BI-Tool Tableau auf Daten in RDBMS und Hadoop zugreifen Data Lake fhlt sich an, wie ein Datenpoolarbeiten i.d.R. auf RDBMS, da Antworten in Naheechtzeit; Drill-Through referenzierte Daten im Hadoop deutlich langsamer (im Minutenbereich) dafr Arbeit auf riesigen Datenmengen (Terabyte-Bereich) mglichTDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>menschliche Anwender</p> <p>AnwendungsflleRechencluster fr Vorhersagen, Applikationen &amp; Automotive-SimulationenAggregateDetaildatenTeilevorhersagen</p> <p> Capgemini 2016. All Rights Reserved26</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>26</p> <p>Externe Quellsysteme knnen Daten in Streams und Batches einfgenalle Datenformate sind beliebig strukturierbar, da Hadoops HDFS ein Rohdatenspeicher istTDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>menschliche Anwender</p> <p>AnwendungsflleRechencluster fr Vorhersagen, Applikationen &amp; Automotive-SimulationenAggregateDetaildatenTeilevorhersagen</p> <p> Capgemini 2016. All Rights Reserved27</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>27</p> <p>Weitere Evolution dieses Data Lakes nutzt diverse RDBMS-Quellsysteme &amp; NoSQL-SystemeRDBMS und NoSQL sollen jeweilige Strken ausspielen Capgemini 2016. All Rights Reserved28TDWI-2016-RDBMS-vs-NoSQL-Master.pptx</p> <p>einige menschliche &amp; viele technische Anwender</p> <p>beigestelltes, erweiterndes RDBMSzum Data Lake</p> <p>RDBMS-Quellsysteme</p> <p>Data Lake</p> <p>AnwendungsflleRechencluster fr Vorhersagen, Applikationen &amp; Automotive-Simulationen</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>28</p> <p>Lessons Learnedkritisch beim Einsatz von Hadoop und Cassandra Capgemini 2016. All Rights Reserved29TDWI-2016-RDBMS-vs-NoSQL-Master.pptxHadoopist immer noch relativ komplexist weniger Anwender-freundlich als BI-Toolssehr gute Integration von Tableau in Hadoop und Cassandragute Integration in DWH-Systemeist deutliche Schwierigkeiten es Datenschutz-konform zu betreibenist deutlich langsamer als Cassandra in Beantwortung von Anfragen durch Latenz im Master/Slave-DesignAnwendungsflleRechencluster fr Vorhersagen, Applikationen &amp; Automotive-Simulationen</p> <p>Source:Source TextSTICKER</p> <p>Capgemini Global V7.7</p> <p>29</p> <p>Lessons Learnedweitere Aspekte von Hadoop und Cassandra Capgemini 2016. All Rights Reserved30TDWI-2016-RDBMS-vs-NoSQL-Master.pptxHadoopist gnstiger, skalierbarer, ausfall-sicherer, durchgehend verfgbarer Massenspeicherist mchtiges Framework zur Speicherung von riesigen Mengen an Rohdaten als OLAP-SystemCaches, Datenbanken und Komponenten ermglichen auch Nahe-Echtzeitan...</p>