11
1 3 Eingegangen: 11. Februar 2014 / Angenommen: 12. Mai 2014 / Online publiziert: 7. Juni 2014 © Springer Fachmedien Wiesbaden 2014 S. Müller () it-novum GmbH, Edelzeller Straße 44, 36043 Fulda, Deutschland E-Mail: [email protected] Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co Stefan Müller HMD (2014) 51:447–457 DOI 10.1365/s40702-014-0053-9 Zusammenfassung Durch die immer starker wachsenden Datenberge stößt der klassische Data Warehouse-Ansatz an seine Grenzen, weil er in Punkto Schnel- ligkeit, Datenvolumen und Auswertungsmöglichkeiten nicht mehr mithalten kann. Neue Big Data-Technologien wie analytische Datenbanken, NoSQL-Datenbanken oder Hadoop versprechen Abhilfe, haben aber einige Nachteile: Während sich ana- lytische Datenbanken nur unzureichend mit anderen Datenquellen integrieren lassen, reichen die Abfragesprachen von NoSQL-Datenbanken nicht an die Möglichkeiten von SQL heran. Die Einführung von Hadoop erfordert wiederum den aufwändigen Aufbau von Knowhow im Unternehmen. Durch eine geschickte Kombination des Data Warehouse-Konzepts mit modernen Big Data-Technologien lassen sich diese Schwierigkeiten überwinden: Die Data Marts, auf die analytische Datenbanken zu- greifen, können aus dem Data Warehouse gespeist werden. Die Vorteile von NoSQL lassen sich in den Applikationsdatenbanken nutzen, während die Daten für die Ana- lysen in das Data Warehouse geladen werden, wo die relationalen Datenbanken ihre Stärken ausspielen. Die Ergebnisse von Hadoop-Transaktionen schließlich lassen sich sehr gut in einem Data Warehouse oder in Data Marts ablegen, wo sie ein- fach über eine Data-Warehouse-Plattform ausgewertet werden können, während die Rohdaten weiterhin bei Hadoop verbleiben. Zudem unterstützt Hadoop auch Werk- zeuge fur einen performanten SQL-Zugriff. Der Artikel beschreibt, wie aus altem Data Warehouse-Konzept und modernen Technologien die „neue Realität“ entsteht und illustriert dies an verschiedenen Einsatzszenarien.

Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

Embed Size (px)

Citation preview

Page 1: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

1 3

Eingegangen: 11. Februar 2014 / Angenommen: 12. Mai 2014 / Online publiziert: 7. Juni 2014© Springer Fachmedien Wiesbaden 2014

S. Müller ()it-novum GmbH,Edelzeller Straße 44,36043 Fulda, DeutschlandE-Mail: [email protected]

Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

Stefan Müller

HMD (2014) 51:447–457DOI 10.1365/s40702-014-0053-9

Zusammenfassung Durch die immer starker wachsenden Datenberge stößt der klassische Data Warehouse-Ansatz an seine Grenzen, weil er in Punkto Schnel-ligkeit, Datenvolumen und Auswertungsmöglichkeiten nicht mehr mithalten kann. Neue Big Data-Technologien wie analytische Datenbanken, NoSQL-Datenbanken oder Hadoop versprechen Abhilfe, haben aber einige Nachteile: Während sich ana-lytische Datenbanken nur unzureichend mit anderen Datenquellen integrieren lassen, reichen die Abfragesprachen von NoSQL-Datenbanken nicht an die Möglichkeiten von SQL heran. Die Einführung von Hadoop erfordert wiederum den aufwändigen Aufbau von Knowhow im Unternehmen. Durch eine geschickte Kombination des Data Warehouse-Konzepts mit modernen Big Data-Technologien lassen sich diese Schwierigkeiten überwinden: Die Data Marts, auf die analytische Datenbanken zu-greifen, können aus dem Data Warehouse gespeist werden. Die Vorteile von NoSQL lassen sich in den Applikationsdatenbanken nutzen, während die Daten für die Ana-lysen in das Data Warehouse geladen werden, wo die relationalen Datenbanken ihre Stärken ausspielen. Die Ergebnisse von Hadoop-Transaktionen schließlich lassen sich sehr gut in einem Data Warehouse oder in Data Marts ablegen, wo sie ein-fach über eine Data-Warehouse-Plattform ausgewertet werden können, während die Rohdaten weiterhin bei Hadoop verbleiben. Zudem unterstützt Hadoop auch Werk-zeuge fur einen performanten SQL-Zugriff. Der Artikel beschreibt, wie aus altem Data Warehouse-Konzept und modernen Technologien die „neue Realität“ entsteht und illustriert dies an verschiedenen Einsatzszenarien.

Page 2: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

448 S. Müller

1 3

Schlüsselwörter Big Data · Data Warehouse · NoSQL · MapReduce · Hadoop · analytische Datenbanken · Data Mart · Business Intelligence

Datenintegration und Data Warehouse sind Technologien, die Unternehmen seit vie-len Jahren helfen, wertvolles Wissen aus ihren unterschiedlichen IT-Systemen zu bergen. In den Datenfluten liegt ein enormes Optimierungspotential für das Geschäft begraben und es lässt sich durch Business Intelligence-Werkzeuge nutzbar machen. Die Realität, in der BI-Werkzeuge eingesetzt werden, hat sich aber in jüngster Ver-gangenheit stark geändert: Viele Unternehmen erzeugen heute überproportional mehr Daten und die Reaktionsgeschwindigkeit für die Auswertung dieser Informa-tionen hat sich drastisch verkürzt. Gleichzeitig hat der Wissensdurst von Organisatio-nen und Unternehmen zugenommen. Der klassische Data Warehouse-Ansatz stößt in diesem Umfeld schnell an seine Grenzen. Um den Informationsdurst zu stillen, gilt es daher, neue Technologien einzusetzen. Big Data-Technologien versprechen, den neuen Anforderungen gerecht zu werden und bieten vielversprechende Ansätze, um das althergebrachte Data Warehouse-Konzept zu erweitern und zu modernisieren.

1 Die Grenzen des klassischen Data Warehouse in Zeiten von Big Data

Etwas angestaubt und in die Jahre gekommen wirkt das aus den 80er Jahren stam-mende Konzept des Data Warehouse in Zeiten von Big Data, MapReduce und NoSQL. Laut Definition ist es

…eine themenorientierte, integrierte, chronologisierte und persistente Samm-lung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen. (Inmon 1996)

Zielsetzung des Data Warehouse ist der Aufbau einer Datenbasis, welche die steue-rungsrelevanten Informationen aus allen operativen Quellen eines Unternehmens integriert. Während die operativen Systeme sich auf die Unterstützung der Tätig-keiten im Tagesgeschäft konzentrieren, liegt der Fokus des Data Warehouse auf Ana-lysen und Berichten zur Steuerung des Unternehmens. Ziel ist es dabei, die Daten in Informationen zu verwandeln. Dieses Wissen hilft, bessere Entscheidungen zu tref-fen und Wettbewerbsvorteile zu erzielen: Wer seine geschäftlichen Tätigkeiten gut kennt, kann seinen Umsatz steigern und Kosten senken.

Abbildung 1 zeigt den typischen Aufbau eines Data Warehouse. Die benötigten Daten werden mit Extraktions-, Transformations- und Ladeprozessen (so genannte ETL-Prozesse) automatisiert und zeitgesteuert in das Data Warehouse geladen. Wäh-rend dieser Prozesse werden die Daten angereichert, aggregiert und veredelt. In der ETL-Phase wird also definiert, welche Daten aus den Vorsystemen extrahiert und verarbeitet werden. Typischerweise enthalten die Prozesse Berechnungen und Har-monisierungen. So können zum Beispiel abgeleitete Kennzahlen aus den Informatio-nen einer oder mehrerer Quellen errechnet werden oder Kundeninformationen aus verschiedenen operativen Systemen konsolidiert werden. Je nach Architekturansatz lassen sich zusätzlich Data Marts aufbauen. Das sind für spezielle Anwendungen

Page 3: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co 449

1 3

oder Organisationseinheiten aufbereitete Abzüge des Data Warehouse. Data Marts sind in der Regel multidimensional aufgebaut und daher optimal von analytischen Anwendungen nutzbar. Das Data Warehouse bzw. die Data Marts stellen die zentrale Datenbasis für alle Analysen und Berichte im Unternehmen dar (Inmon 1996) (Kim-ball und Ross 2013).

Data Warehouse-Systeme basieren auf relationalen Datenbanksystemen (RDBMS). RDBMS sind seit einigen Jahrzehnten der Standard für die Speicherung von Daten. Sie werden daher nicht nur für operative, sondern auch für analytische Systeme eingesetzt. RDBMS bieten eine Reihe von Vorteilen für den Einsatz im Data Warehouse-Umfeld:

● Ausgereifte, hoch entwickelte Datenbanksoftware ● Weit verbreitetes, schnell verfügbares Wissen ● SQL als mächtige und standardisierte Abfragesprache ● Viele Business Intelligence-Frontends verfügbar ● Hohe Zuverlässigkeit und Konsistenz ● Umfangreiche Security-Features für die Zugriffskontrolle ● Backup- und Rollback-Features bei Datenverlusten

Abbildung 2 gibt einen Überblick der neuen Anforderungen an analytische und Data Warehouse-Systeme. Konfrontiert mit extrem hohen Datenvolumina kann die Skalie-rung eines Data Warehouse sehr schwierig sein. Verwendet man eine kommerzielle Datenbanksoftware, kann die Speicherung außerdem hohe Lizenzkosten nach sich ziehen. Das schreckt viele Unternehmen ab, weshalb sie ihre Daten nicht analysieren und das Wissen darin nicht nutzen können (TDWI 2013).

Eine weitere Schwierigkeit kann die fehlende Leistungsfähigkeit eines RDBMS bei hohen Datenvolumen sein. Davon können die ETL-Prozesse, aber auch die Abfragegeschwindigkeit betroffen sein. Bei umfangreichen Modellen ist es außer-dem möglich, dass das Schema einer relationalen Datenbank nicht erweitert und angepasst werden kann. Neben dem reinen Volumen können auch die hohe Frequenz der Datenerzeugung und deren Speicherung eine Herausforderung darstellen. Weil immer mehr Daten in nicht standardisierten Formaten in den Mittelpunkt des Analy-seinteresses rücken, stoßen relationale Datenbanken schnell an ihre Grenzen. Sie sind nicht auf die Speicherung von unstrukturierten Daten ausgelegt und stellen damit keine ideale Lösung für den Umgang mit heterogenen Datenformaten dar (Pentaho 2013).

Aus diesen Gründen haben sich unterschiedliche technologische Ansätze entwi-ckelt, die ich in den folgenden Abschnitten vorstelle. Dabei möchte ich auch auf

Abb. 1 Klassisches Data Warehouse

Page 4: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

450 S. Müller

1 3

das Zusammenspiel zwischen dem Data Warehouse und den Big Data Stores einge-hen, weil Synergien entstehen können, wenn die Vorteile beider Ansätze kombiniert werden.

2 Neue Mitspieler: analytische Datenbanken

Analytische Datenbanken sind eine vergleichsweise einfache und schnell durchführ-bare Erweiterung des Data Warehouse. Darunter werden Datenbankensysteme ver-standen, die speziell für analytische Anwendungen konstruiert sind. Ihre Grundlage ist nach wie vor ein RDBMS, das aber nicht mehr die optimale Transaktionsverarbei-tung zum Ziel hat. Analytische Datenbanksysteme fokussieren auf schnelle Abfragen und sind in der Lage, Daten mit großer Geschwindigkeit zu lesen und zu verarbeiten. Typische Vertreter sind beispielsweise die Datenbanken InfiniDB, Infobright, Ver-tica, oder Vectorwise.

Analytische Datenbanken nutzen eine Reihe besonderer Technologien, um die Datenverarbeitung zu beschleunigen. Dazu gehören:

● Spaltenorientierung ● massive parallele Verarbeitung (MPP) ● Datenkompression ● In-Memory Speicherung

Abb. 2 Neue Anforderungen an Data Warehouse und Analysen (Pentaho 2013)

Page 5: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co 451

1 3

Analytische Datenbanken eröffnen dadurch eine ganze Reihe von Möglichkeiten:

● Nutzung von Daten, deren Speicherung normalerweise zu teuer und deren Ver-arbeitung zu langwierig wäre

● Nutzung von SQL als leistungsfähige, weit verbreitete Abfragesprache ● Kompatibilität mit einer Vielzahl von Business Intelligence-Frontends ● Vergleichsweise schnell zu implementieren und einfach zu administrieren ● Keine besonderen Ansprüche an komplexe Hardware-Architekturen

Im Kontext Big Data spielen die Eigenschaften analytischer Datenbanken eine wich-tige Rolle, weil sie die Abfrageperformance auf große Datenmengen massiv steigern. Auf diese Weise können sehr große Datenbestände per SQL oder durch Business Intelligence-Werkzeuge abgefragt und analysiert werden. Insbesondere die Nutzung von anwenderfreundlichen BI-Werkzeugen eröffnet Analysten und Controllern ein bislang unbekanntes Spektrum an Auswertungsmöglichkeiten. Über pivot-ähnliche OLAP-Oberflächen lassen sich große Datenbestände auch ohne IT-Knowhow intuitiv analysieren.

Was nun die Erweiterung des Data Warehouse betrifft, ergeben sich bei analyti-schen Datenbanken unterschiedliche Optionen. Zum einen können unabhängige Data Marts aufgebaut werden. In diesem Szenario hat man kein Data Warehouse mehr als integrative Datenschicht für das gesamte Unternehmen, sondern baut themen- oder organisationsspezifische Data Marts direkt auf den operativen Quellen auf. Dieser Ansatz lässt sich schnell umsetzen, bringt aber Nachteile mit sich, was die Integra-tion mit anderen Datenquellen betrifft. Die zweite Option ist die Entwicklung von abhängigen Data Marts. Diese Data Marts werden aus dem Data Warehouse und nicht aus den Quellen direkt gespeist. Dadurch wird auf die integrative Schicht zuge-griffen, sodass ihre Vorteile erhalten bleiben. Allerdings ist diese Architekturvariante mit höherem Aufwand für die Modellierung und Entwicklung verbunden (BeyeNET-WORK 2010).

3 Erweiterung um NoSQL-Datenbanken

NoSQL steht für „Not only SQL“. Datenbanken dieser Kategorie sind Open Source, horizontal skalierbar, schemafrei, verteilt und verfügen über ein nicht-relationales Modell. In jüngster Vergangenheit erfreut sich diese Technologie zunehmender Beliebt-heit, denn der Einsatz von NoSQL hilft, einige der bekannten Schwächen der relationa-len Datenbanken zu vermeiden. RDBMS können in bestimmten Anwendungsszenarien (zum Beispiel bei Streaming-Media-Applikation oder bei Webseiten mit hohen Last-aufkommen) Schwierigkeiten mit der Performance bekommen. Sowohl die vertikale als auch die horizontale Skalierung sind nur eingeschränkt möglich und zudem kost-spielig. Weiterhin ist die Flexibilität bei der Erweiterung des Schemas, z. B. das Hinzu-fügen einer Tabellenspalte, in Kombination mit großen Datenmengen eingeschränkt.

NoSQL-Datenbanken können mit derartigen Anforderungen besser umgehen. Durch die horizontale Skalierbarkeit, also durch das Hinzufügen weiterer Server, können sie große Datenmengen vergleichsweise kostengünstig verarbeiten. Um die Ausfallsicherheit zu erhöhen, kann man die Daten auf mehrere Server replizieren.

Page 6: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

452 S. Müller

1 3

Durch die Verwendung vergleichsweise sehr einfacher Schemata in der Datenbank bietet NoSQL mehr Agilität und Flexibilität bei Anpassungen und Erweiterungen. Typische Anbieter in dieser Kategorie sind z. B. MongoDB, Cassandra, Neo4 J oder CouchDB.

NoSQL-Datenbanken unterteilt man in die folgenden Kategorien:

● Core-NoSQL

– Spaltenorientierte Datenbanken – Dokumentenorientierte Datenbanken – key/value-basierende Datenbanken – Graphenorientierte Datenbanken

● Soft-NoSQL

– Objekt-Datenbanken – XML-Datenbanken – Grid-Datenbanken

Zusammenfassend besitzt die Nutzung von NoSQL folgende Vorteile:

● Scale-out: kostengünstige, horizontale Skalierung ● Hochperformante Datenbanken für Realtime-Applikationen ● Schnelle und einfache Anpassung des Datenbankschemas ● Hohe Agilität für explorative Entwicklungen im Big Data-Umfeld ● Speicherung von wenig strukturierten Daten ebenfalls möglich

Wie bereits dargelegt, bieten NoSQL- im Vergleich zu relationalen Datenbanken einige Vorteile, besonders im Kontext großer Datenmengen. Bedingt durch ihre Ska-lierbarkeit und Flexibilität bieten NoSQL-Systeme sehr vielseitige Lösungsansätze für die Anforderungen von Big Data. Leider verfügen sie aber nur über eine sehr ein-geschränkte Anzahl von Abfragesprachen, die nicht an die Möglichkeiten von SQL heranreichen. Der Grund dafür ist, dass Daten im NoSQL-Umfeld so gespeichert werden, wie sie von bestimmten Applikationen benötigt werden. Eine komplexe und mächtige Abfragesprache ist somit obsolet. Manager, Analysten und sonstige Busi-nessanwender eines Data Warehouse legen allerdings großen Wert auf Funktionen wie Adhoc-Reporting, Dashboards und OLAP-Analysen. Für die Bereitstellung die-ser analytischen Services spielt SQL daher aktuell noch eine tragende Rolle.

Wie in Abb. 3 dargestellt ist, gibt es im Wesentlichen zwei alternative Varian-ten für Analysen auf NoSQL-Datenbanken: Zum einen können Berichte direkt auf der Datenbank über entsprechende Schnittstellen erstellt werden. Moderne Business Intelligence-Software ermöglicht eine solche Umsetzung in Ansätzen. Der volle Funktionsumfang einer BI-Suite kann allerdings nicht erreicht werden, zumindest nicht beim aktuellen Stand der Technik. Die zweite Variante geht deshalb den Weg über das Data Warehouse basierend auf einem RDBMS. Die Vorteile von NoSQL werden also in den Applikationsdatenbanken genutzt, während die relationale Daten-bank ihre Stärken als Data Warehouse ausspielt und die relevanten, aggregierten Daten speichert (Caserta 2013).

Page 7: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co 453

1 3

4 Erweiterung um Hadoop

Auch Hadoop setzt dort an, wo traditionelle Data Warehouse-Systeme an ihre Grenzen geraten. Durch die explosive Zunahme von Daten bekommen bestehende Plattformen Probleme bei der Aufnahme und Verarbeitung der Datenmengen. Tradi-tionelle Technologien führen zu einem rapiden Anstieg der Betriebskosten des Data Warehouse. Erschwerend kommt hinzu, dass nicht mehr nur strukturierte, sondern auch unstrukturierte Daten analysiert werden sollen. Diese Datentypen passen aber nicht in die Logik eines Data Warehouse. Neben der unzureichenden Performance bei der Verarbeitung der großen Datenmengen sind also auch die hohen Kosten ein Pro-blem der traditionellen Data Warehouse-Systeme. Hadoop bietet für beide Probleme einen interessanten Lösungsansatz.

Hadoop ist ein auf Open Source basierendes Framework für die Erfassung, die Organisation, das Speichern, Suchen und Analysieren von unterschiedlich struktu-rierten Daten auf einem Cluster von Standardrechnern. Durch diese Architektur kann Hadoop extrem skalieren und sehr große Datenmengen performant verarbeiten. So eignet sich Hadoop hervorragend für die batch-orientierte Verarbeitung gigantischer Datenmengen. Durch die Verwendung von Standard-Hardware lassen sich die Kos-ten niedrig halten und ein interessantes Preis-Performance-Verhältnis erreichen.

Hadoop ist ein Top-Level-Projekt der Apache Foundation. Neben der reinen Open Source-Version der Software existieren einige kommerzielle Distributionen, wie zum Beispiel Cloudera, Hortonworks oder MapR. Diese Anbieter offerieren professionel-len Support und erweiterte Funktionalitäten.

Abb. 3 NoSQL im Kontext des Data Warehouse

Page 8: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

454 S. Müller

1 3

Hadoop zeichnet sich durch die folgenden Merkmale aus:

● Java-basiertes Open Source Framework ● Hadoop Distributed File System (HDFS) als verteiltes Dateisystem ● MapReduce-Framework für die parallele Verarbeitung der Daten ● Hive als Data Warehouse-Datenbank auf Hadoop ● Hbase als NoSQL-Datenbank auf Hadoop

Das Hadoop-Framework ermöglicht die Verarbeitung sehr großer Datenmengen und bringt technologisch einige Vorteile mit sich:

● Schnelle und einfache Skalierbarkeit des Clusters ● Hohe Verarbeitungs- und Analysegeschwindigkeit durch Parallelisierung ● Gleichzeitige Verarbeitung mehrerer Datentypen (strukturiert, halbstrukturiert,

unstrukturiert) ● Hohe Flexibilität für die explorative Analyse von Big Data ● Niedrige Kosten durch Open Source und Standard-Hardware

Hadoop ist keine Datenbank, sondern besteht aus dem verteilten Dateisystem HDFS und dem MapReduce-Framework zur Verarbeitung der Daten. Auf diese Weise ist Hadoop zum einen ein Datenarchiv und zum anderen eine Plattform zur Datenana-lyse und -aufbereitung. Hadoop bietet die Basisfunktionalität eines Data Warehouse, ermöglicht also beispielsweise Aggregationen, Summen- oder Mittelwertbildungen. In Kombination mit anderen Technologien vervielfacht sich dadurch sein Nutzen enorm.

Die Ergebnisse der Hadoop-Verarbeitung können im Data Warehouse oder den Data Marts abgelegt werden, während die Rohdaten nur im Hadoop-System existie-ren. Die Analyse der veredelten Daten lässt sich dagegen mit allen Vorzügen einer Data Warehouse-Plattform durchführen. Dabei dreht es sich beispielsweise auch wie-der um die Verwendung von SQL als Abfragesprache. Hadoop bietet zwar mit Hive auch eine zugehörige Datenbank mit SQL-ähnlicher Sprache, sie ist aber nicht so leistungsfähig wie SQL. In Abb. 4 ist exemplarisch die Erweiterung des Data Ware-house um einen Hadoop Cluster zu sehen.

Aktuell entwickeln nahezu alle Anbieter von Hadoop-Distributionen Werkzeuge für einen performanten SQL-Zugriff auf Daten in Hadoop. Diese Entwicklungen sind vielversprechend, angesichts des momentanen Stands der Technik ist es aber sinn-voller, Hadoop mit dem klassischen Data Warehouse-Ansatz zu kombinieren. Ziel ist es, das Data Warehouse nicht zu ersetzen, sondern sinnvoll zu ergänzen, um die Vorteile beider Welten nutzen zu können. Trotz aller Vorzüge ist Hadoop nämlich nicht für jeden Anwendungsfall geeignet, z. B. wenn nur geringe Datenmengen ana-lysiert werden sollen. Die Einführung von Hadoop ist außerdem mit der Notwendig-keit verbunden, nicht unerhebliches Wissen im Unternehmen aufzubauen, und daher aufwändig (isreport 2013; TDWI 2013).

Page 9: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co 455

1 3

5 Big Data-Technologien im Zusammenspiel

Big Data-Technologien werden im Unternehmen nicht nur isoliert genutzt, sondern auch in Kombination. Ein Beispiel ist in Abb. 5 zu sehen: eine Firma betreibt eine Webapplikation oder Webseite, die einen hohen Besucherverkehr aufweist. Die Daten sollen gesammelt werden, um das Verhalten der Besucher zu analysieren. Ziel ist eine so genannte Clickstream-Analyse der Webseitenbesuche und der Aktionen der Anwender. Basierend auf den Ergebnissen dieser Analyse kann das Marketing die Besucher besser verstehen und wertvolle Erkenntnisse aus ihrem Verhalten ableiten. Die Rohdaten dieser Analysen liegen in den Logs der Webserver.

Die Daten der Webapplikation werden in einer NoSQL-Datenbank gespeichert. Das ist sinnvoll, weil die Datenbank mit den großen Mengen an Log-Daten effizient umgehen kann und über die Flexibilität verfügt, neue Datenobjekte unkompliziert ergänzen zu können.

Beispielsweise fallen täglich 100 Mio. neue Datensätze an. Mit traditionellen ETL- und Data Warehouse-Technologien kann ihre Verarbeitung zeitlich ein Pro-blem werden. Aus diesem Grund werden die Daten in Hadoop abgelegt. Hadoop ermöglicht eine extrem leistungsfähige Batch-Verarbeitung, um die Daten für die gewünschten Analysen aufzubereiten. So werden die Logdaten zu den Werten „Stun-den“, „Hosts“ oder „Page Level“ verdichtet und mit Informationen aus anderen Quel-len angereichert.

Nach diesem Schritt werden die relevanten Daten aggregiert in das Data Ware-house bzw. die analytische Datenbank geladen. Auf dieser Ebene steht der volle Funktionsumfang von SQL zur Verfügung und es werden unterschiedliche Techno-logien für performante Abfragen auf dem veredelten Datenbestand genutzt. Das sind

Abb. 4 Hadoop im Kontext des Data Warehouse

Page 10: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

456 S. Müller

1 3

optimale Voraussetzungen für Abfragen mit komplexen Filtern, Joins und Gruppie-rungen sowie die Nutzung von OLAP (Online Analytical Processing).

Selbstverständlich sind bei dieser Architektur noch verschiedene Kombinationen bzw. Datenströme möglich. Wie bereits dargelegt, kann man zum Beispiel ein Repor-ting direkt auf NoSQL aufsetzen oder die Logdaten direkt in Hadoop ablegen.

6 Totgesagte leben länger – Koexistenz des Data Warehouse mit den Big Data Stores

In den vorangegangenen Absätzen ist klar geworden, dass das Konzept des Data Warehouse in Zeiten von Big Data aktueller denn je ist. Und das auch, wenn die klassische Umsetzung nur mit einer relationalen Datenbank bei einigen Anforderun-gen an seine Grenzen gerät. Das grundsätzliche Data Warehouse-Modell bietet viele Vorteile und ermöglicht es, viele leistungsstarke BI-Frontends zu nutzen.

Die Herausforderung bei der Konfrontation mit Big Data und den dazugehörigen Analysen besteht deshalb mehr darin, das Data Warehouse sinnvoll mit den neuen Technologien zu ergänzen und zu erweitern, um die Schwächen der klassischen Architektur auszugleichen. Moderne Business Intelligence und Data Warehouse-Ar-chitekturen müssen in der Lage sein, unterschiedlichste Daten verarbeiten zu können.

Big Data-Technologien stellen wiederum die ETL- und Datenintegrationswerk-zeuge vor neue Anforderungen. Ziel ist es, Daten der unterschiedlichsten Quellen zu kombinieren und zu transformieren. Deshalb müssen genauso Schnittstellen zu

Abb. 5 Integrierte Big Data-Architektur

Page 11: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co

Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co 457

1 3

NoSQL, Hadoop usw. vorhanden sein wie zu relationalen Datenbanken, Files und anderen Quellen.

Die Mühe lohnt sich aber, weil dadurch wertvolles Wissen gewonnen wird. Dieses Wissen kann von den Fachabteilungen für qualitativ bessere Entscheidungen genutzt werden. Die neue Realität bedeutet also nicht das Ende des alten Data Warehouse-Ansatzes, sondern den Aufbruch in eine Zukunft, die bessere und schnellere Analy-sen bedeutet – werden alte und neue Ansätze richtig miteinander kombiniert.

Literatur

BeyeNETWORK (2010) Analytical Platforms: Beyond the traditional Data WarehouseJoe C (2013) Intro to NoSQL DatabasesInmon WH (1996) Building the data warehouse. Wiley, Hobokenisreport (2013) Hadoop erschließt Big Data für Data WarehousesKimball R, Ross M (2013) The data warehouse toolkit: The definitive guide to dimensional modeling (3rd

ed.). Wiley, New DelhiPentaho (2013) Driving Big DataTDWI (2013) Where Hadoop fits in your Data Warehouse architecture