6
3/2015 10 www.isreport.de BUSINESS INTELLIGENCE ALLE GROSSEN und viele mittelgroße Unternehmen betrei- ben heutzutage ein oder mehrere Data-Warehouse- und Business- Intelligence(BI)-Lösungen. Die Systeme sind oft bereits mehr als zehn Jahre im Einsatz und teil- weise technologisch veraltet. Die Märkte und das Wettbewerbsum- feld der Unternehmen, aber auch das Produktangebot und die Archi- tekturkonzepte für Business Intel- ligence haben sich in dieser Zeit massiv verändert. Heute existieren brauchbare Lösungen für Proble- me, mit denen man sich über viele Jahre als unvermeidlich abgefun- den hatte. Ansätze, die vor wenigen Jahren noch als undenkbar galten, sind inzwischen State of the Art. Wer bestimmte Analysen und An- Klassische Data Warehouses haben in vielen Unternehmen ihre Performance- und Kapazitätsgrenze erreicht. Hadoop ist ein Ausweg und kann bei der Eingangs- schicht sogar relationale Datenbanken ersetzen. Big Data und Hadoop Hadoop-Turbo dreht im Data Warehouse auf Hadoop kann nicht nur große Datenmengen speichern, sondern auch bei den Eingangsschichten in einer Data-Warehouse- Architektur die relationalen Datenbanken ersetzen. Quelle: Mayato

Big Data und Hadoop Hadoop-turbo dreht im Data Warehouse auf · lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Big Data und Hadoop Hadoop-turbo dreht im Data Warehouse auf · lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und

3/201510 www.isreport.de

Business intelligence

Alle grossen und viele mittelgroße Unternehmen betrei-ben heutzutage ein oder mehrere Data-Warehouse- und Business-Intelligence(BI)-Lösungen. Die Systeme sind oft bereits mehr als zehn Jahre im Einsatz und teil-

weise technologisch veraltet. Die Märkte und das Wettbewerbsum-feld der Unternehmen, aber auch das Produktangebot und die Archi-tekturkonzepte für Business Intel-ligence haben sich in dieser Zeit massiv verändert. Heute existieren

brauchbare Lösungen für Proble-me, mit denen man sich über viele Jahre als unvermeidlich abgefun-den hatte. Ansätze, die vor wenigen Jahren noch als undenkbar galten, sind inzwischen State of the Art. Wer bestimmte Analysen und An-

Klassische Data Warehouses haben in vielen unternehmen ihre Performance- und Kapazitätsgrenze erreicht. Hadoop ist ein Ausweg und kann bei der eingangs-schicht sogar relationale Datenbanken ersetzen.

Big Data und Hadoop

Hadoop-turbo dreht imData Warehouse auf

Hadoop kann nicht nur große Datenmengen speichern, sondern auch bei den eingangsschichten in einer Data-Warehouse-Architektur die relationalen Datenbanken ersetzen. Quelle: Mayato

Page 2: Big Data und Hadoop Hadoop-turbo dreht im Data Warehouse auf · lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und

11www.isreport.de 3/2015

Business intelligence

wendungen nicht beherrscht, läuft Gefahr, der Konkurrenz bald ret-tungslos zu unterliegen.

Die IT-Verantwortlichen stehen daher vielerorts vor der Aufgabe, ihre BI-Strategie und ihre Analy-selösungen an die heutigen Mög-lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und vielfältiger Da-tenmengen, gilt dabei als Zauber-wort. Mittlerweile gibt es unzählige erfolgreiche Anwendungsbeispiele aus dem Marketing, aus dem Inter-net und aus der mobilen Welt, aus der industriellen Produktion und selbst aus Personalwesen, Sport und Politik. Die Medien und die Bü-cherregale sind voll davon, und der Begriff Big Data scheint sich nicht abnutzen zu wollen.

Die Technologie Hadoop wird sehr oft in einem Atemzug mit Big Data erwähnt. Tatsächlich haben Big Data und Hadoop einen engen Bezug zueinander. Allerdings kann es auch Big-Data-Anwendungen ge-ben, die kein Hadoop nutzen. Um-gekehrt kann Hadoop auch in Ana-lyselösungen sinnvoll zum Einsatz kommen, die nicht als Big Data gel-ten. Der folgende Artikel beleuch-tet die Nützlichkeit von Hadoop im Kontext von Data Warehousing und Business Intelligence.

Big Data performant und kostengünstig analysierenDas zentrale Versprechen von Hadoop ist die kostengünstige und performante Verarbeitung von sehr großen Mengen strukturierter und unstrukturierter Daten. Solche Da-ten und Datenmengen kommen vor allem im Internet vor, wo man längst nicht mehr von Terabyte an Daten redet, sondern von Peta- oder Exabyte. Von daher überrascht es nicht, dass die grundlegenden Kon-zepte hinter Hadoop primär auf die Anstrengungen von Konzernen wie Google, Facebook und Yahoo zu-rückgehen. Das Open-Source-Pro-

jekt wurde Mitte des vergangenen Jahrzehnts vom damaligen Yahoo-Mitarbeiter Doug Cutting ins Leben gerufen, nachdem Google techni-sche Details des Map-Reduce-Algo-rithmus veröffentlicht hatte. Yahoo betreibt heute noch einen der welt-weit größten Hadoop-Cluster mit mehr als 40 000 Knoten.

Hadoop basiert auf einem in Java programmierten Framework, das rechenintensive Prozesse parallel auf einer skalierbaren Cluster-Ar-chitektur ausführt. Zum Kern von Hadoop zählen das Hadoop Distri-buted File System (HDFS), ein ver-teiltes Dateisystem, Hadoop Map-Reduce, ein System zur parallelen Verarbeitung von großen Daten-mengen und Hadoop YARN, gewis-sermaßen das Betriebssystem von Hadoop. Neben diesen Kernkompo-nenten gibt es eine wachsende Zahl von Anwendungsprogrammen, die zum Hadoop-Ökosystem gehören. Die bekanntesten hierunter sind Pig und Hive. Sie sollen die Entwick-lung von Map-Reduce-Algorithmen in Java vereinfachen.

Mit dem auf Konzepte von Face-book zurückgehenden Hive lassen sich beispielsweise Map-Reduce-Jobs mit der an SQL angelehnten Sprache HiveQL entwickeln und bei der Ausführung in Java-Code übersetzen. Hive wird oftmals als das Data Warehouse von Hadoop bezeichnet, da sich damit Daten im Tabellenformat abspeichern lassen. Die Strukturierung der Informati-onen ist für die meisten heutigen Analysewerkzeuge immer noch we-sentliche Voraussetzung für deren Nutzung.

Weitere Hadoop-Anwendungen sind Flume zur Verarbeitung von Echtzeitdaten und Sqoop zum Da-tenaustausch zwischen Hadoop und klassischen relationalen Datenban-ken, aber auch hin zu SAP HANA. Diese und viele Dutzend weitere Werkzeuge belegen das Ausmaß der Möglichkeiten von Hadoop im Bereich der Datenverarbeitung.

MeHr DAzu iM WeB • Hadoop erschließt Big Data

http://tiny.cc/Hadoop-BigD• Leitfaden Hadoop-Auswahl http://tiny.cc/Hadoop-Wahl

BE SMART!USE DATA!Erfolgreiche Unternehmenssteuerung mit BI

ERLEBEN SIE6 TOP-EXPERTEN LIVE!

Donnerstag, 18. Juni 201512:00 - 18:00 UhrGENO Haus Stuttgart

Erfahren Sie:

• welchen Mehrwert Sie durch moderne Visual Analytics Lösungen erzielen

• wie Sie aus Ihren Bereichs- und Unternehmensdaten in wenigen Minuten neue Insights gewinnen

• wie Sie Ihr BI-Projekt durch agiles Projektmanagement voranbringen

• wie Sie in Zukunft Antworten auf Fragen finden werden, die noch niemandin Ihrem Unternehmen gestellt hat

VERANSTALTER

Sichern Sie sich jetzt Ihr Ticket unter:

www.smartdata-event.de

Anz

eige

Page 3: Big Data und Hadoop Hadoop-turbo dreht im Data Warehouse auf · lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und

3/201512 www.isreport.de

Business intelligence

Gegenüber einfachen Datei- lösungen bietet Hadoop die Mög-lichkeit, unterschiedliche Daten-quellen wie relationale Daten-banken oder Live-Daten aus dem Internet (etwa Twitter-Feeds) an-zubinden und diese Informationen miteinander zu verknüpfen. Da-teien lassen sich ohne vorherige Strukturierung in ein Ablagemus-ter im Hadoop File System ablegen. Mit Hilfe von Applikationen auf der Grundlage von Map Reduce können Anwender in Hadoop nach Dateien oder Informationen suchen. Einen besonderen Vorteil bietet Hadoop im Hinblick auf die Analyse un-strukturierter Daten wie beispiels-weise E-Mails.

technische und wirtschaftliche skalierbarkeit sind machbarDer größte Vorteil von Hadoop ist die Fähigkeit, über mehrere Tau-send Knoten zu skalieren und dabei trotz riesiger und ständig wachsen-der Volumina die Beladungs- und Abfragezeiten annähernd konstant zu halten. Dass es sich bei diesen Knoten um kostengünstige Stan-dardhardware handelt, ist ein we-sentlicher Grund für die Kosten-effizienz von Hadoop. Ein zweiter Grund ist, dass Hadoop selbst auf-grund seiner Open-Source-Lizenz vollständig kostenfrei ist.

Dies gilt im Wesentlichen auch für die verfügbaren Distributionen, de-ren Hersteller lediglich für die oft-mals hilfreichen Zusatzkomponen-ten bescheidene Beträge verlangen, den Hadoop-Kern jedoch kostenlos bieten. In der Rohfassung müssen Hadoop und seine Anwendungen auf jedem Knoten im Cluster einzeln installiert und administriert werden. Diesen Aufwand leistet sich heute allerdings kaum noch ein Unterneh-men, da beispielsweise die Distribu-toren Cloudera oder Hortonworks Distributionen anbieten, die Aufbau, Konfiguration und Management von Hadoop-Clustern massiv erleich-tern.

Skalierbarkeit im Bereich von Pe-tabyte und Exabyte ist mit Hadoop sowohl technisch als auch wirt-schaftlich machbar. Konventio-nelle Speichersysteme auf Basis der RAID-Technologie (Redundant Array of Independent Disks) kön-nen da nicht mithalten. Sie stellen den engsten technologischen Fla-schenhals für konventionelle Busi-ness-Intelligence- und Data-Ware- house-Systeme dar und sind der Hauptgrund dafür, dass Unterneh-men nur einen Bruchteil der ver-fügbaren Daten für Analysen nutzen und hierfür relativ umständliche, teure und unflexible Architektu-ren betreiben müssen. Die meisten Analysen sind lediglich Auswertun-gen aktueller und historischer Da-ten aus transaktionalen Systemen, während unstrukturierte Informati-onen, aber auch viele strukturierte Detaildaten ungenutzt bleiben.

Große Datenmengen und unstruk-turierte Daten lassen sich in einem konventionellen Data Warehouse nur dann auswerten, wenn man ei-nen unverhältnismäßig hohen Auf-wand für Performance-Optimierun-gen und Datenaufbereitung in Kauf nimmt. Parallelisierungsansätze sind in klassischen Systemen nur begrenzt verfügbar. Um die Ver-arbeitungsgeschwindigkeit gleich zu halten oder zu steigern, bleibt bei wachsender Datenmenge nur die Investition in noch mehr Hard-ware.

In-Memory-Komponenten kön-nen bis in den Bereich einiger Dut-zend Terabyte sehr nützlich sein, da sie weniger komplexe und flexible-re Datenmodelle erlauben und Re-dundanzen minimieren helfen. Bis auf wenige Ausnahmen – wie bei-spielsweise Exasolution – konnten bisher aber nur wenige dieser In-Memory-Technologien ihre Wirk-samkeit im eigentlichen Big-Data-Bereich nachweisen. Trotz großer Preisunterschiede sind In-Memory-Werkzeuge außerdem im Vergleich zu festplattenspeicherbasierten

Datenbanken und Hadoop oftmals eher kostspielig. Trotzdem sind In-Memory-Komponenten ein unver-zichtbarer Bestandteil moderner BI- und Data-Warehouse-Architek-turen. Tatsächlich sind sie deutlich verbreiteter als Hadoop-Lösungen, die in vielen Unternehmen im Expe-rimentierstadium laufen. Oft noch nicht einmal mit Big Data, sondern mit überschaubaren, aber immer-hin unstrukturierten Daten. Fraglos hat aber auch Hadoop seinen Platz in zentralen Unternehmensanwen-dungen und BI-Landschaften ver-dient und es wird sich diesen auch über kurz oder lang erobern.

Daten ohne struktur analysierenHadoop bietet nicht nur quantita-tiv das Potential zur Speicherung größerer Datenmengen, sondern auch qualitativ neue Möglichkei-ten. Die Anforderungen an BI- und Data-Warehouse-Lösungen ge-hen zunehmend über Daten aus transaktionalen Systemen hinaus. Es sollen auch nicht oder weniger strukturierte Daten einbezogen und gemeinsam mit strukturierten Daten analysiert werden. In her-kömmlichen Systemen müssen die Daten in einem aufwändigen ETL-Prozess (Extraktion – Transforma-tion – Laden) in eine Struktur ge-zwängt werden und dadurch gehen viele Informationen verloren. Klas-sische BI-Architekturen schränken bei der Analyse durch Vorselektion und Vorstrukturierung der Daten massiv ein. Oft können selbst von den reduzierten Daten lediglich Stichproben ausgewertet werden.

Anders als bei traditionellen Da-tenbanksystemen müssen die Da-ten in Hadoop keine bestimmte Struktur aufweisen. Egal ob Daten aus Maschinen, Sensoren oder Mo-bile Apps, ob Clickstreams, E-Mails oder Logs aus IT-Applikationen – alle diese Daten können zunächst sehr effizient in einem System auf-bewahrt werden. Ihre Struktur darf sich auch ändern, ohne dass dies

Page 4: Big Data und Hadoop Hadoop-turbo dreht im Data Warehouse auf · lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und

13www.isreport.de 3/2015

Business intelligence

zu Anpassungsbedarfen der Daten-speicher oder gar zu Abbrüchen der Ladeprozesse führt. Da die ge-lieferten Daten bei der Speicherung praktisch unverändert bleiben, sind spätere Auswertungen auch nicht durch Annahmen bei der vorheri-gen Speicherung eingeschränkt.

In einer Data-Warehouse-Ar-chitektur liegt es daher nahe, die Eingangsschichten nicht mehr in relationalen Datenbanken, son-dern über Hadoop abzubilden. Man spricht auch von einem Data Lake, einem See aus Rohdaten, in den spätere Analysen gewissermaßen eintauchen und nach relevanten Zusammenhängen suchen können. Die Flexibilität bleibt gewahrt, und das bei sinkenden Kosten. Eine Stu-die des Bitkom (Bundesverband In-formationswirtschaft, Telekommu-nikation und neue Medien) belegt, dass Hadoop pro Terabyte lediglich ein Zwanzigstel der Kosten klassi-scher Data Warehouses verursacht, wenn es für die schnelle Verarbei-tung eingesetzt wird.

Die Speicherung umfassender polystrukturierter Daten in Hadoop erlaubt deutlich weitergehende Analysen, als dies auf herkömm-lichen Systemen möglich ist. Über die bisherigen hypothesengetriebe-nen Fragestellungen hinaus lassen sich nun auch Korrelationen er-kennen, die man so vor der Analyse nicht erwartet hatte. Iterative und interaktive Analyseprozesse sind möglich, die sich schrittweise dem entscheidenden Informationsinhalt der Daten nähern. Viele Datenqua-litätsprobleme können mit Hadoop toleriert werden, weil sie durch die größere Grundgesamtheit statis-tisch nicht mehr ins Gewicht fallen und weil die Analyse mehr signifi-kante Zusammenhänge findet.

Hadoop-Programmierer sind bislang MangelwareNeben den offenkundigen Stärken dürfen jedoch auch die Nachteile von Hadoop nicht übersehen wer-

den. Das gravierendste Problem besteht darin, dass Map-Reduce-Jobs in der Hochsprache Java pro-grammiert werden müssen. Die oben erwähnten Anwendungen Pig und Hive schaffen zwar Abhilfe, allerdings sind erfahrene Entwick-ler hierfür nur schwer zu finden und entsprechend teuer. Tatsäch-lich sind zumindest heute noch die Personalausgaben der größte Kostenblock bei Hadoop-Projekten. Verbesserte Werkzeuge und ein breiteres Angebot an Entwicklungs-kräften im Near- und Offshorebe-reich werden hier mit der Zeit si-cher etwas Linderung bringen. Wer aber in seinem Unternehmen mit Hadoop größere Anwendungen be-treiben will, sollte sich hinsichtlich seiner personellen Aufstellung und der notwendigen Entwickler-Skills frühzeitig Gedanken machen.

Die Programmierlastigkeit von Hadoop macht sich auch be-merkbar, wenn man Hadoop als Eingangsschicht für ein Data Warehouse einsetzen möchte und daher bei weiterer Verarbeitung in ETL-Prozesse einbinden muss. Grafische Möglichkeiten für die Modellierung derartiger Prozesse entstehen erst nach und nach. Zwar verfügen eine Reihe etablierter ETL-Anbieter wie Informatica und Talend mittlerweile über spezielle Big-Data-Editionen zur Integration von Hadoop. Manche wie Syncsort erlauben sogar Realtime-Szenari-en mittels Streaming. So weit sind jedoch bei weitem noch nicht alle Hersteller und bei allen müssen die Konzepte für ETL mit Hadoop auch noch reifen. In der Zwischenzeit führt die manuelle Code-Entwick-lung zu erhöhtem Aufwand für Än-derungen und Korrekturen an den ETL-Prozessen.

Wie bei jeder Datenhaltungstech-nologie hängen die Antwortzeiten für Abfragen auch bei Hadoop stark von der Art der Abfrage ab. Der MapReduce-Algorithmus zieht seine Geschwindigkeit vor allem aus der

www.oraylis.de | [email protected]

Sichere und stabile Analyseplattformen Integration und Vernetzung

aller Daten Self-Service-BI für

Fachanwender Von neuen Erkenntnissen

profitieren Schnell fundierte

Entscheidungen treffen Hohe Geschwindigkeit,

hoher Komfort

AZ_Image_ISRep_70x297.indd 1 28.04.15 13:49

Anz

eige

Page 5: Big Data und Hadoop Hadoop-turbo dreht im Data Warehouse auf · lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und

3/201514 www.isreport.de

Business intelligence

massiven Parallelisierung. Entspre-chend ist die Parallelisierbarkeit von Abfragen ein entscheidender Faktor für die Performance. Suchen und die meisten einfachen Aggre-gationen gehören zu den besonders gut parallelisierbaren Abfragen. Daher sind hier tendenziell eher gute Antwortzeiten zu erwarten.

Auch die Konfiguration des Hadoop-Clusters trägt wesentlich zu kurzen Laufzeiten bei. Hier be-stehen viele Optimierungsmög-lichkeiten. Schließlich hilft im Nor-malfall auch die Vorstrukturierung der Daten mit Hive, die Zugriffe zu beschleunigen. Letztlich wird Hadoop aber im Vergleich zu einer In- Memory-Lösung in den meisten Fällen spürbar langsamere Ant-wortzeiten haben. Hadoop und In-Memory-Komponenten ergänzen sich daher im Kontext eines Data Warehouse ideal. Auch das Hadoop-Ökosystem selbst hat mittlerweile erfolgreiche In- Memory-Ansätze wie beispielsweise Spark hervorge-bracht.

Mit Hadoop kann das Data Warehouse schlanker werdenEin Data Warehouse verursacht für Datenhaltung und Datenver-arbeitung bis hin zu den Front-ends für BI und Analytics Kosten. Die Wertschöpfung hingegen fin-det auf der Anwendungsebene statt, also im Reporting, in ana-lytischen Anwendungen und in den Prozessen, die mit Hilfe von Analytics gesteuert werden. Wie ein produzierendes Unternehmen darauf bedacht sein muss, den ei-gentlichen Herstellungsprozess möglichst nur mit wertschöpfen-den Tätigkeiten auszulasten, so muss auch eine IT-Abteilung da-nach streben, Daten möglichst schnell und kosteneffizient an die Stellen zu bringen, an denen mit den daraus gewonnenen Infor-mationen Geld verdient wird. Die Datenbereitstellung darf keines-falls so viele finanzielle und Sys-

temressourcen verschlingen, dass das Unternehmen am Front end sparen muss und dann nur einen Bruchteil der möglichen Ernte einfahren kann.

Auch hier hilft Hadoop. Beispiels-weise dadurch, dass nur die wirk-lich benötigten Daten über ETL-Prozesse durch die Schichten des Data Warehouse geladen werden. In klassischen Data-Warehouse-Ar-chitekturen werden vielfach Daten auf Vorrat prozessiert, was während der Entwicklung Zusatzaufwand und im laufenden Betrieb erhöhten Bedarf für Systemressourcen bedeu-tet. Viele rechenintensive Transfor-mationen, Datenbereinigungen, die Aufbereitung von unstrukturier-ten Daten und nicht vollständig zu vermeidende Redundanzen lassen sich auf einer Hadoop-Infrastruktur preiswerter abbilden. Hadoop er-setzt somit nicht nur die Eingangs-schicht eines Data Warehouse, sondern dient darüber hinaus auch als kostengünstiger Parkplatz für Rohdaten und transformierte Daten und erlaubt den Verzicht auf viele ETL-Mappings und Daten, die akut nicht im Data Warehouse benötigt werden. All dies macht das zentrale Data Warehouse deutlich schlan-ker. Ressourcen werden frei, die für die wertschöpfenden Analysen zur Verfügung stehen.

Selbst Archivierungsprozesse können im Data Warehouse über-flüssig werden, wenn die Architek-tur Beladungen nur für die jeweils benötigten Daten vorsieht. Hadoop vereinigt Funktionen von Eingangs-schicht und Datenarchiv, in dem alle Unternehmensdaten abgelegt sind, die nicht unmittelbar benötigt werden. Anders als bei vielen klas-sischen Archivlösungen lassen sich diese Daten jederzeit und mit ver-tretbarem Aufwand abrufen.

Auf Hadoop-Daten greifen Analysten direkt zuDie zahlreichen Anwendungen des Hadoop-Frameworks bieten um-

fangreiche Möglichkeiten der Da-tenanalyse bis hin zu Verfahren für Machine Learning und Data Mining. Die Vorteile eines direkten Hadoop-Zugriffs nutzen mittlerweile auch arrivierte Hersteller für Analytics, allen voran SAS Institute. Somit können Analysten bereits in der Ha-doop-Eingangsschicht eines Data Warehouse nach Mustern suchen. In klassischen Data-Warehouse-Ar-chitekturen ist Analytics hingegen eher in den oberen Schichten an-gesiedelt. Wiederum lässt sich der Datenhaushalt des zentralen Data Warehouse auf ein notwendiges Minimum für Reporting und Visu-alisierungen reduzieren. Analysen auf der Hadoop-Ebene bergen ins-besondere dann Vorteile, wenn es um die Auswertung von nicht struk-turierten Daten geht. In klassischen Architekturen lassen sich solche Daten oft nur dann ausgewerten, wenn sie vorher durch das Nadel-öhr einer Strukturierung gelaufen sind.

Hadoop-Abfragen erfolgen im Nor-malfall über Hive. Nach und nach schaffen auch Analysewerkzeuge für fachliche Anwender wie beispiels-weise Tableau direkte Zugriffsmög-lichkeiten auf Hadoop. Im Fall von Tableau existieren zwei Varianten für einen solchen Datenzugriff. Bei der Live-Verbindung werden dyna-mische SQL(Structured Query Lan-guage)- oder MDX(Multidimensional Expressions)-Abfragen direkt an die Quelldatenbank im Hive-Warehouse von Hadoop gesendet. Dazu existie-ren in Tableau vordefinierte Kon-nektoren, die unter anderem den Zugriff auf die Distributionen von Cloudera, Hortonworks und MapR ermöglichen. Darüber hinaus gibt es noch allgemeine ODBC-Konnek-toren (Open Database Connectivi-ty), die eine Verbindung zu jeder ODBC-unterstützenden Datenquelle aufbauen können. Um die Daten mit Tableau abrufen zu können, müssen diese im Tabellenformat, in dem als Data Warehouse von Hadoop be-

planung.cubeware.com

Planlos?Macht nichts ...... denn mit unseren Lösungen für die operative Unternehmensplanung bekämpfen wir effektiv Planlosigkeit.

� Agil Pläne entwickeln� Flexibel Anforderungen integrieren� Einfach Teilpläne konsolidieren

Cubeware-is-report-05-15 28.04.15 14:26 Seite 1

Page 6: Big Data und Hadoop Hadoop-turbo dreht im Data Warehouse auf · lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und

15www.isreport.de 3/2015

Business intelligence

nommen wird. Voraussetzung hier-für ist es einerseits, dass die Tools des Hadoop-Ökosystems selbst weiter reifen und typische Data-Warehouse- und Business-Intel-ligence-Funktionen abbilden und dass andererseits Analysewerkzeu-ge noch besser lernen, mit Hadoop und den dort liegenden Daten um-zugehen. Stand heute merkt man vielen BI-Frontends noch an, dass ihre Wurzeln in die Zeit von OLAP (Online Analytical Processing) und dimensionalen Datenmodellen zu-rückreichen. jf

Hadoop-Plattform abbilden. Letzt-lich ist es vor allem Hive, das we-sentliche Konzepte und viele Funk-tionalitäten eines Data Warehouse bietet. Hive ist dank der Erstellung von Datenanalysen mit Java-Pro-grammierung in der Modellierung praktisch unbegrenzt flexibel.

Möglicherweise werden relatio-nale Datenbankmanagement-Syste-me bereits in wenigen Jahren kaum noch eine Rolle in Data-Warehouse-Architekturen spielen, da die Daten-ablage komplett von Hadoop und In- Memory-Komponenten über-

zeichneten Hive-Warehouse in einer Datenbank, abgelegt sein. Nach ei-ner Verbindung über den Konnektor zu dieser Datenbank können die Da-ten mit Tableau bearbeitet werden.

Die Verarbeitungsgeschwindig-keit der Analysen in Tableau über die Live-Verbindung hängt im We-sentlichen von der Performance des Hadoop-Clusters ab, in dem sich das Hive-Warehouse befindet.

Alternativ zur Live-Verbindung können Daten aus Hadoop auch zunächst in die In-Memory-Data-Engine von Tableau geladen wer-den, wo anschließend interaktive Analysen mit hoher Performance ablaufen. Beide Varianten erlau-ben Self-Service-Analysen einen direkten Zugriff auf Hadoop, ohne dass die Daten vorher durch das klassische Data Warehouse verarbeitet werden müssen. Le-diglich die Hive-Modellierung wird vorausgesetzt. Wie oben diskutiert, kann die Hive-Model-lierung allerdings je nach Ver-fügbarkeit der Skills ein Problem darstellen.

Hadoop und in-Memory statt relationaler DatenbankenGrundsätzlich ließen sich somit sämtliche Funktionen eines Data Warehouse vollständig auf einer

planung.cubeware.com

Planlos?Macht nichts ...... denn mit unseren Lösungen für die operative Unternehmensplanung bekämpfen wir effektiv Planlosigkeit.

� Agil Pläne entwickeln� Flexibel Anforderungen integrieren� Einfach Teilpläne konsolidieren

Cubeware-is-report-05-15 28.04.15 14:26 Seite 1

Die Autoren

Foto

s: M

ayat

o

Marcus Dill (links) ist geschäftsführer des Analysten- und Beraterhauses Mayato.Max Fabrizius ist dort Business-intelligence-Berater mit den schwerpunkten

Data Warehousing, sensordatenanalyse und industry Analytics.

Anzeige