15
it-novum.com So finden Sie das richtige Toolset Die 10 wichtigsten Big Data-Technologien

Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum.com

So finden Sie das richtige Toolset

Die 10 wichtigsten Big Data-Technologien

Page 2: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

Zusammenfassung 3

1. Hadoop - Ein bewährtes Konzept 4

2. Cloudera – Hadoop für Unternehmen 4

3. Apache Hive - Das Data Warehouse für Hadoop 5

4. Cloudera Impala - Die Lösung für Echtzeit abfragen 6

5. MongoDB - Die Datenbank für alle Fälle 7

6. Pentaho - Flexible Business Intelligence Plattform 8

7. Infobright-MySQL-EnginemiteffektiverDatenkompression 9

8. Apache Spark - Ein Framework zur Echtzeitanalyse 10

9. Splunk-BigDatavereinfachen 11

10. Apache Storm - Big Data Analyse auf Echtzeitbasis 12

Ausblick 14

Inhalt

2

Page 3: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

ZusammenfassungDas Whitepaper präsentiert eine Auswahl der wichtigsten Big Data-Technologien, die derzeit auf

dem Markt sind. Es soll der ersten Information und Orientierung dienen, kann aber eine intensi-

ve Auseinandersetzung mit dem Thema nicht ersetzen.

Heute ist es wichtiger denn je, möglichst viele Informationen über den Markt und die Kun-

den zu sammeln und auszuwerten, um einen Wettbewerbsvorteil zu generieren. Ohne Zweifel

gehören Big-Data-Bestände zu den wichtigsten Ressourcen vieler Unternehmen, aus denen

sichErkenntnissefürdieEntwicklungneuerGeschäftsmodelle,ProdukteundStrategienziehen

lassen. Im Moment stehen die meisten Unternehmen jedoch erstmal vor der Herausforderung,

eingeeignetesBig-Data-KonzeptunddiegeeignetenUseCasesfürsichzuidentifizieren.Jenach

Anwendungsszenario kommen dabei verschiedene, meist individualisierte Technologiekonzepte

aus dem Big-Data-Umfeld zum Einsatz. Die zehn wichtigsten dieser Technologien stellen wir in

diesem Whitepaper vor.

3

Page 4: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

1. Hadoop - Ein bewährtes KonzeptHadoopisteininJavageschriebenesOpenSource-FrameworkzurparallelenDatenverarbeitung

auf sehr hoch skalierbaren Server-Clustern. Im Big Data-Bereich spielt Hadoop mittlerweile bei

vielen Lösungen eine zentrale Rolle. Ursprünglich wurde es entwickelt, um große Datenmengen

für Internet-Riesen wie Facebook, Google und Yahoo günstig zu speichern und die Daten gleich-

zeitig auf vielfältige Weise zu verarbeiten. Besonders geeignet ist Hadoop für Datenauswertun-

gen, bei denen aufwendige Analysen durchgeführt werden müssen. Dabei gehen die verschie-

denen Auswertungsverfahren im Hadoop-System weit über die Möglichkeiten traditioneller

Business Intelligence Tools hinaus.

UnternehmenprofitierendurchdenEinsatzvonHadoop,da

и große und vielfältige Datenmengen kostengünstig gespeichert werden. Damit lohnt sich auch

die Vorratshaltung von Rohdaten, deren Wert noch unklar ist

и esaufpreiswerterHardwareohneBindunganeinenbestimmtenHerstellerläuft,

и dieDatenaufvielfältigeundflexibleWeiseanalysiertwerdenkönnen,

и die Analyseerkenntnisse zeitnah zur Verfügung stehen und damit aktuelle Unternehmensent-

scheidungen unterstützt werden.

Ein großes Problem in vielen Unternehmen ist, dass die zur Verfügung stehende Zeit fehlt, um

die Daten zu analysieren. Ein System wie Hadoop organisiert die Verarbeitung und den Daten-

flussdergestalt,dassdieVerarbeitungszeitbeizunehmendemDatenvolumensinkt.Dieswird

erreicht, indem mehrere Rechner parallel an den Aufgaben arbeiten. Die sogenannte Shared-

Nothing-Architektur, die in Hadoop eingesetzt wird, sorgt dafür, dass jeder Rechner des verteil-

ten Systems unabhängig von den anderen seine Aufgaben erfüllt.

2. Cloudera – Hadoop für UnternehmenCloudera ist eine Datenmanagementplattform, die Apache Hadoop mit einer Reihe von Open

Source-Projekten im Big Data-Bereich kombiniert. Cloudera stellt die umfangreichste und am

häufigsteneingesetzteHadoop-Distributiondar–die„Cloudera‘sDistributionincludingApache

Hadoop“ (CDH). Als einzelnes System, das hochskalierbar ist, vereint Cloudera Speicherressour-

cen mit leistungsstarken Verarbeitungs- und Analyseframeworks.

CDH umfasst als einzige Hadoop-Distribution individuell auswählbare Erweiterungen, eine

Batch-Verarbeitung, interaktives SQL und eine interaktive Suche sowie die kontinuierliche Ver-

fügbarkeit auf Unternehmensniveau.

4

Page 5: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

Die mit Abstand wichtigsten Features von CDH sind ein eigenes Installationsprogramm und

ein komfortables Werkzeug zur Cluster-Administraton - der proprietäre Cloudera Manager. Die

Kompatibilität von CDH mit einer großen Anzahl von Betriebssystemen, Hardwarekomponenten,

Data Warehouses und ETL-Systemen ist in ausführlichen Tests bewiesen worden.

CDH-Anwenderprofitierendavon,dasssiebestehendeIT-Toolsund-Ressourcenweitereinset-

zen können. Ein weiterer Vorteil der Cloudera-Distribution liegt in ihrer Flexibilität, denn bei der

Implementierung von neuen Technologien in bestehende Produktionsabläufe sind meistens

großeHerausforderungenzubewältigen,dieoftnurindividuellgelöstwerdenkönnen.

Die Vorteile von Cloudera sind:

и Komplette Hadoop-Distribution für den Business-Einsatz

и Hochskalierbar

и Große Flexibilität bei der Integration in Unternehmensprozesse

3. Apache Hive - Das Data Warehouse für Hadoop

Eine Herausforderung für Unternehmen ist die Verlagerung ihrer Daten nach Hadoop, weil

die vorhandenen Daten üblicherweise in relationalen Datenbanken mit der Structured Query

Language (SQL) gespeichert sind. Unterstützung bietet hier das Open Source Data Warehouse-

System Apache Hive. Von Facebook entwickelt und auf dem MapReduce-Algorithmus beruhend,

liefert es den SQL-Dialekt Hive Query Language (HiveQL oder einfach HQL) mit.

Die Hauptfunktionen von Hive sind die Datenzusammenfassung, die Datenabfrage und die

Datenanalyse.DazuwerdenHiveQLSQL-artigeAbfragenautomatischinMapReduce-Jobsüber-

setzt, die auf dem Hadoop-Cluster ausgeführt werden. Auf diese Weise kann Hive Implementie-

rungenfürAggregationen,Filter,JoinsundandereStandard-OperationenzurVerfügungstellen,

dieansonsteninJavaindividuellimplementiertwerdenmüssten.ZusätzlichkönnenBenutzer

dieFunktionalitätdurchsogenannteUserDefinedFunctionsselbstumsetzen,umdamitz.B.

spezielle Dateiformate einzulesen. Am besten eignet sich Hive für die Batch-Verarbeitung von

großen Datenmengen wie zum Beispiel Web-Logs.

5

Page 6: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

Vorteile, die sich für Unternehmen beim Einsatz von Hive ergeben:

и DieHürdenfürdenEinsatzvonMapReducesindniedrig,dadieJobsnichtselbstimplemen-

tiert werden müssen,

и Schnelles Laden der Daten durch den Schema-on-Read-Ansatz,

и SQL-Kenntnisse sind weit verbreitet, wodurch auch Nichtspezialisten mit Hive arbeiten kön-

nen.

Relationale Datenbanken arbeiten nach dem Schema-on-Write-Ansatz (SoW). Hier wird beim

Einspielen von Daten ein Schema erzwungen. Ein herkömmliches ETL bereitet die Daten so auf,

das sie zum Datenbankschema passen. Enthalten die Quelldaten neue Informationen, muss das

Schema angepasst werden, bevor die neuen Daten eingespielt werden. Hive dagegen arbeitet

nach dem Schema-on-Read-Ansatz (SoR). Dabei werden die Daten unverändert im HDFS abge-

legtunderstbeiAnfragenmittels„ETLonthefly“gegendasSchemageprüft.DerVorteildes

SoR-Ansatz gegenüber dem SoW-Konzept besteht darin, dass er ein schnelles Laden von Daten

ermöglicht, da sie nicht gelesen, geparst und in das datenbankinterne Format konvertiert wer-

den müssen. Das Laden besteht lediglich aus dem Kopieren oder Verschieben von Dateien. Das

hatdenpositivenNebeneffekt,dassmehrereSchemataaufdenselbenDatenarbeitenkönnen.

Die Ausführungszeit der Übersetzungen steigt natürlicherweise mit der zu analysierenden

Datenmenge.DahersolltendieDateieninHadoopsHDFSmöglichsteffektivorganisiertwerden,

damiteffizienteAbfragennuraufeinerTeildatenmengedurchgeführtwerdenmüssen.Hivebie-

tet darüber hinaus auch die Möglichkeit, Daten komprimiert zu speichern. Das ermöglicht eine

kostengünstige Datenhaltung und senkt den für Hive erforderlichen Speicherplatz im HDFS. Für

Ad-hoc-AnalysenistHiveallerdingswegenderLatenzdurchdasStartenderMapReduce-Jobs

nurbedingtgeeignet.BenutzerspezifischeFunktionenfürHivewerdeninJavageschrieben.

4. Cloudera Impala - Die Lösung für Echtzeit abfragen

Der Hadoop-Spezialist Cloudera entwickelte mit Impala eine Technologie, mit der Echtzeitabfra-

gen in HDFS oder HBase durchgeführt werden können. Das für Apache lizenzierte Impala-Projekt

ermöglicht es Nutzern, Low Latency SQL-Abfragen ohne die Bewegung oder Umwandlung von

Daten aus HDFS und Apache HBase zu erstellen. Diese Abfragen werden in SQL formuliert und

versprechen, schneller zu sein als mit Hive oder MapReduce durchgeführte.

Die Hauptfunktion von Impala besteht darin, ein skalierbares und verteiltes Datenabfrage-Tool

fürHDFSundHBasebereitzustellen.DazuerzeugtImpalaeinflexiblesDatenmodell,daseffizien-

ter mit komplexen Daten umgehen kann als ein klassisches Data Warehouse.

6

Page 7: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

ImpalaistindasHadoop-ÖkosystemintegriertundnutztdiegleichenflexiblenDatei-und

Datenformate, Metadaten, Sicherheits- und Ressourcenmanagement-Frameworks wie Apache

Hadoop, Apache Hive, Apache Pig und andere Komponenten der Hadoop-Produktfamilie. Für

Anwender,dieSQLbeherrschen,stelltImpalaeineffizientesEntwicklungsmodelldar,danicht

jedesMaleinneuesJava-Programmgeschriebenwerdenmuss,wennneueArtenvonAnalysen

durchgeführt werden müssen.

Unternehmen,dieClouderaImpalaeinsetzen,profitierenvonderTechnologie,da

и Daten nicht importiert bzw. exportiert werden müssen; sie werden direkt mit Pig oder Hive

gelesen,

и kostengünstige Standardhardware ausreicht,

и Abfragen in SQL formuliert werden und damit keine neue Sprache gelernt werden muss,

и es ein eigenständiges System zur Big Data-Verarbeitung und -Analyse ist. Kosten für ETL zu

Analysezwecken lassen sich daher vermeiden.

5. MongoDB - Die Datenbank für alle FälleMongoDB ist eine der marktführenden NoSQL-Datenbanken aus dem Open Source-Bereich.

Als„Allzweckdatenbank“eignetsichMongoDBbestensfürdieheutigeIT-Landschaftmitihren

großen und teilweise unstrukturierten Datenmengen. Die Datenbank ermöglicht eine dynami-

sche Entwicklung und hohe Skalierbarkeit bei den Anwendungen. Dem Nutzer bietet MongoDB

eine integrierte Query Language für einfache Abfragen, Replikation und Sharding. Mongo DB

folgt dem Sharding-Ansatz, um einen hohen Durchsatz bei den Schreib- und Leseoperationen zu

erreichen.

Vorteile, die sich durch den Einsatz von Mongo DB ergeben, sind:

и dynamische Entwicklung und horizontale Skalierbarkeit der Datenbank,

и vielfältigeinsetzbar,einfachzukonfigurierenundschnelleinsatzfähig,

и Skalierung von Einzelservern bis hin zu komplexen Architekturen über mehrere Rechenzent-

ren hinweg möglich,

и Schemafreiheit. Dadurch entfällt ein gewisser Arbeitsaufwand bei der Implementierung.

MongoDB lässt sich auf allen gängigen Betriebssystemen einsetzen und ist mittlerweile auch in

der Cloud verfügbar. Wie bei anderen schemafreien NoSQL-Datenbanken muss auch bei Mon-

goDB kein Schema vor dem Einsatz festgelegt werden. Das erlaubt im Gegensatz zu einer MySQL-

Datenbank eine hohe Flexibilität bei den zu speichernden Daten. Bei MongoDB bestehen die

DokumenteausJSON-CodeundlassensichnachBedarfverändern.ElementewieArraysoder

Timestamps dürfen dabei vorkommen.

7

Page 8: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

Änderungen an der Datenstruktur stellen kein Problem dar, weshalb sich MongoDB vor allem für

neueunddadurchoftänderndeDatenstruktureneignet.TrotzdemsolltenAnwendersichGedan-

ken über die Gestaltung der Dokumente machen, da Performance-Probleme drohen, wenn die

Datenbank an Umfang zunimmt.

DieDatenwerdenimBSON-Formatgespeichert,dasmitdemJSON-Formatverwandtist.Damit

unterstütztMongoDBalleJavaScript-Datentypen.WerdenneueFelderhinzugefügtoderwächst

die Größe eines Dokuments über den zugewiesenen Speicherplatz hinaus, speichert MongoDB

das Dokument an einer anderen Stelle der Datei. Das kann die Performance beeinträchtigen,

denndieSoftwaremussdieDatenneuschreiben.GeschiehtdasNeuschreibenhäufig,passt

MongoDB automatisch den Padding-Faktor an und räumt Dokumenten von Haus aus mehr Platz

ein. Darüber hinaus garantiert die eingebaute Replikation mit automatisierter Ausfallsicherung

eine große Zuverlässigkeit.

6. Pentaho - Flexible Business Intelligence Plattform

PentahoisteinerderweltweitführendenAnbieterfürOpenSourceBusinessIntelligence-Soft-

ware und unterstützt Unternehmen bei der Integration ihrer Big Data-Bestände. Die Strategie

von Pentaho ist es, verschiedene bewährte Einzellösungen zu einem kompletten Framework

zusammenzufassen und den Support dafür aus einer Hand zu liefern. So können zum Beispiel

Datenentwickler und Analysten mit Pentaho Data Integration (PDI) gemeinsam an der Erstellung

neuer Datensätze arbeiten, indem sie das gleiche Produkt sowohl für die Entwicklung als auch

fürdieVisualisierungderDatenverwenden.PDIunterstütztvieleBigData-spezifischeVerarbei-

tungsschritte,wiedasAusführenvonMapReduce-JobssowiePig-oderHive-Skripten.PDIist

sehrflexibelundkannnichtnuraufHadoop,sondernauchaufHBase,MongoDBundandereBig

Data-Datenquellen zugreifen.

Der Einsatz von Pentaho im Big Data-Bereich bringt folgende Vorteile mit sich:

и Unterstützung bei der Einführung von Big Data-Technologien, sodass keine hochspezialisier-

ten Kenntnisse von Seiten des Unternehmens nötig sind,

и FlexibilitätbeiderAuswahlderSoftware-KomponentenermöglichtindividuelleLösungen,

и Zusammenfassung von Einzellösungen zu einem kompletten Framework,

и Präsentation der einzelnen Funktionen der Pentaho BI-Plattform in einheitlicher Form und

Aussehen.

8

Page 9: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

PentahoverfügtübereineoffeneArchitektur,diesichmiteinergroßenAnzahlvonSchnitt-

stelleneinfachinbestehendeIT-Landschafteneingliedernlässt.ImVergleichzutraditionellen

BI-Lösungen ist die Pentaho-Plattform eine aus verschiedenen Modulen bestehende Suite. Die

Suite besteht aus dem Pentaho Server, der das BI-Framework umfasst, das wiederum das ETL,

die Webdienste und das Sicherheitszentrum enthält. Der Server umfasst Komponenten für die

Report-Erstellung,Analyse,Workflow,DashboardsundDataMiningsowiedieBI-Workbench,

daneben enthält er eine Reihe von Design- und Verwaltungs-Tools. Die Aufgabe des Pentaho-

Servers ist es, dem Anwender die einzelnen Funktionen in einheitlicher Form und Aussehen zu

präsentieren.

NebendenOpenSourceSoftware-Komponenten,dieindersogenanntenPentahoCommunity

Edition enthalten sind, bietet Pentaho auch proprietäre Funktionen. Diese können entweder

einzeln oder zusammengefasst als komplette Suite, der Pentaho Enterprise Edition, bezogen

werden. Alle Komponenten der Community Edition stehen unter Open Source-Lizenzen und sind

inJavaentwickelt.DieEnterpriseEditionbietetzusätzlicheSoftware-KomponentenundDienst-

leistungen an, wie zum Beispiel einen Kundensupport.

Für die wichtigsten Big Data-Quellen bietet Pentaho umfassende Unterstützung: Neben der

Hadoop-Plattform unterstützt Pentaho auch NoSQL-Datenbanken wie Apache Cassandra/Data-

Stax, HBase, MongoDB, und HPCC Systems sowie analytische Datenbanken wie Infobright und

Vectorwise.DamitstelltPentahoeineflexibleundkostengünstigeSoftware-SuitefürdieAnbin-

dung von Big Data-Technologien und bietet eine leistungsfähige und moderne Anwendung für

die Auswertung von sehr großen Datenbeständen.

7. Infobright - MySQL-Engine mit effektiver Datenkompression

Das explosionsartige Datenwachstum setzt die etablierten Datenmanagementlösungen unter

Druck, da ihre Flexibilität beschränkt ist. Aus diesem Grund wurden spaltenbasierte Datenban-

ken entwickelt. Bei der spaltenorientierten Speicherung werden die Werte einer Spalte fortlau-

fend abgespeichert. Das ist besonders für Data Warehouse, Customer Relationship Management-

undandereAd-hoc-Abfrage-SystemesowiefüranalysierendeApplikationenvorteilhaft.

Vorteile, die sich aus dem Einsatz spaltenorientierter Datenbanksysteme ergeben, sind:

и EffektiveDatenkompressionenkönnendurchgeführtwerden,

и Weniger Speicherplatz wird verbraucht, wodurch Kosten gespart werden,

и Insgesamt größere Flexibilität und Schnelligkeit bei Analysen,

и Ad-hoc-Abfragen können durchgeführt werden.

9

Page 10: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

InspaltenbasiertenSystemenkönnenimGegensatzzuzeilenorientiertenSystemeneffektive-

re Kompressionen durchgeführt werden. Die Spaltendaten haben einen einheitlichen Typ und

können daher über Kompressionsschemata verdichtet werden, was den Speicherplatzverbrauch

verringert. Mit zunehmender Kompression wird es jedoch schwerer, auf einzelne Daten zuzugrei-

fen, da große Datenmengen dekomprimiert werden müssen. Bei der Speicherung sollte daher

beachtet werden, dass die Daten einer gesamten Spalte an gleicher Stelle abgespeichert wer-

den, da sonst die Lesegeschwindigkeit abnimmt.

ImLaufederletztenJahrehabensichverschiedeneSystemewieVectorwise,HPVerticaoder

Netezza/BM am Markt etabliert. Mit der MySQL-Engine Infobright hat sich in der jüngeren Vergan-

genheit ein neues Open Source-System etabliert, das für Datenmengen ab 500 Gigabyte geeignet

ist. Infobright kombiniert eine spaltenbasierte Datenbank mit einer sich selbst verwaltenden

Knowledge Grid-Architektur. Damit werden die Kosten gering gehalten. Für den Betrieb von Info-

bright reicht eine einfache Server- und Speicherinfrastruktur aus, weil die Datenbank auf jeder

Standardhardwareläuft.

DasskalierbareDataWarehouseistaufeinfacheImplementierungundPflegeausgelegtund

kannkomplexeAnfragensehrgutbearbeiten.DieNotwendigkeit,spezifischeSchematazuer-

stellen, entfällt, genauso wie die Erstellung und Wartung von Indizes oder die Partionierung von

Daten sowie deren manuelle Feinabstimmung. Infobright macht damit hohe Ladegeschwindig-

keiten von sehr komprimiert gespeicherten Daten möglich.

8. Apache Spark - Ein Framework zur Echtzeitanalyse

Viele Unternehmen möchten ihre Daten nutzen, um schnelle und fundierte Entscheidungen

treffenzukönnen,zumBeispieldieOptimierungvonProduktenoderdasIdentifizierenvonEin-

sparmöglichkeiten. Eine Technologie, die dafür herangezogen werden kann, ist Apache Spark.

Dabei handelt es sich um ein parallel arbeitendes Framework aus dem Open Source-Bereich, das

die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern ermöglicht. Im

Vergleich zu Hadoops MapReduce-Algorithmus kann Spark bei bestimmten Anwendungen Daten

um ein vielfaches schneller verarbeiten.

Vorteile, die sich durch den Einsatz von Apache Spark ergeben, sind:

и Echtzeitanalysen durch In-Memory-Bearbeitung der Daten,

и Schnelle und fundierte Entscheidungen,

и SQL-ähnliche Abfragen möglich, wodurch keine spezialisierten Kenntnisse im Unternehmen

nötig sind.

10

Page 11: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

Durch die In-Memory-Funktion wird bei Spark die Datenverarbeitung von der Festplatte in den

Hauptspeicher verlagert. Berechnungen lassen sich dadurch wesentlich schneller durchführen.

Spark unterstützt eine schnelle Big Data-Anwendungsentwicklung und ermöglicht die Wieder-

verwendung von Codes in Batch-, Streaming- und interaktiven Anwendungen. Zudem bietet

die Technologie eine erweiterte Ausführung von hochentwickelten Graphen. Gelesen werden

können Daten aus verschiedenen Quellsystemen, z.B. Hive, Cassandra oder auch HDFS.

SparkstellteinfacheundverständlicheAPIszurVerfügung,umApplikationeninJava,Python

oder Skala zu schreiben. Spark Streaming ist ein Modul für die Verarbeitung von Daten-Streams

wiez.B.Clickstreams.DamitistdieSoftwaremitdembereitsbesprochenenStormvergleichbar.

Im Gegensatz zu Storm verfolgt Spark jedoch einen Durchsatz-erhöhenden Micro Batching-An-

satz. Der Nachteil ist allerdings, dass gleichzeitig auch die Latenz steigt.

SparkSQListeinweiteresModul,mitdemsichautomatischSparkJobsauseinemSQLState-

ment erzeugen lassen. Damit lassen sich z.B. ETL-Strecken ohne Programmieraufwand entwi-

ckeln. Das macht es für Entwickler leichter, SQL-Befehle in einer Applikation zu programmieren,

die externe Daten mit komplexen Analysen kombinieren.

9. Splunk - Big Data vereinfachenSplunk Enterprise ermöglicht das Monitoring und die Analyse von Clickstream-Daten sowie Kun-

dentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen. Splunk übernimmt dabei

die Integration der unterschiedlichen Daten, sodass sie sinnvoll ausgewertet werden können.

Anfänglich wurde Splunk nicht als eine der großen Entwicklungen im Big Data-Bereich gesehen.

Heute hat sich die Technologie jedoch besonders auf dem Gebiet des Digital Footprint etabliert.

Vorteile, die sich aus dem Einsatz von Splunk ergeben, sind:

и Kompatibilität mit den meisten Betriebssystemen,

и Vertraute Befehle können zur Datensuche eingesetzt werden,

и Echtzeit-Interaktion mit Suchergebnissen,

и Starke Individualisierung möglich, da Funktionen unabhängig voneinander eingestellt wer-

den können,

и zu Beginn reicht eine einzige Instanz des Produkts auf dem Computer aus, um von dort aus

wachsen zu können.

Splunk kann fast alle Arten von Dateien, die in einem Unternehmen anfallen, indizieren, ver-

arbeitenundauswerten.DazusammeltdieSoftwarealleDaten,unabhängigvonFormatoder

Speicherort. Splunk kann Daten von Netzwerk-Ports oder direkt von Programmen oder Skripten

übernehmen.

11

Page 12: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

Zusätzlich kann das System mit relationalen Datenbanken kooperieren, um Daten zu aktualisie-

ren oder zu sammeln.

DieAuswertungfindetmitderSplunk-spezifischenSuchsprache,derSearchProcessingLangua-

ge (SPL) statt. Zahlreiche mathematische Funktionen erlauben ein umfangreiches Auswerten der

Daten. Die Pivot-Schnittstelle ermöglicht es Benutzern, Maschinendaten zu lesen, um umfassen-

de Berichte zu erstellen, ohne die Suchsprache lernen zu müssen. Nach dem Auswerten können

ResultategrafischweiterverarbeitetundinDashboardsmitmehrerenDiagrammenundAnsich-

ten zusammengefasst und individuell platziert werden.

Ein weiterer großer Vorteil von Splunk ist, dass sich seine Funktionen stark anpassen und unab-

hängig voneinander individualisieren lassen. Beispielsweise ist es möglich, die Datensammel-

komponente zu skalieren, um mehrere Server bearbeiten zu können. Die Datenindizierungsfunk-

tionkannebenfallsaufmehrerenServern,diealsverteiltePeerskonfiguriertwerden,eingestellt

werden. Damit lässt sich mit einer großen Verfügbarkeitsoption die Fehlertoleranz transparent

behandeln.

10. Apache Storm - Big Data Analyse auf Echtzeitbasis

Apache Storm ist ein fehlertolerantes, skalierbares System zu Echtzeitverarbeitung von Daten-

strömen. Die Technologie stellt eine Komponente des Hadoop-Ökosystems dar und arbeitet

unabhängig von Programmiersprachen. Die Idee zu Storm ist im Umfeld von Twitter entstanden

und wurde zur Erfüllung der folgenden Ziele entwickelt: Datenbanken sollen auf Basis der Echt-

zeitverarbeitung von Nachrichten aktualisiert werden, fortlaufend Ergebnisse berechnen und

ausgeben (Continuous Computation) sowie rechenintensive Anfragen mithilfe verteilter Remote

Procedure Calls parallelisieren.

Vorteile, die der Einsatz von Apache Storm mit sich bringt, sind:

и die Echtzeitanalyse von Daten,

и eine einfach und überschaubar aufgebaute API,

и ein geringer Aufwand um mit nahezu jeder beliebigen Programmiersprache auf das Analyse-

system zuzugreifen.

12

Page 13: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

Das Einsatzgebiet von Storm ist der latenzsensitive Bereich der Echtzeitdatenverabeitung: Storm

istdasMittelderWahl,wennEntscheidungenimMillisekundenbereichgetroffenwerdenmüs-

sen,ohnedassdaraufgewartetwerdenkann,dassz.B.einklassischerBatchJobeinErgebnis

liefert. Ein typischer Anwendungsfall ist die Analyse von Clickstreams im Retailbereich. Storm

kann hier mit wenig Hardware bereits eine große Anzahl an Tupeln mit geringen Latenzen verar-

beiten. Dabei garantiert Storm mit Hilfe eines Acknowlegement-Algorithmus, dass im verteilten

Einsatz keine Nachrichten verloren gehen und jedes Tupel verarbeitet wird. Geht ein Tupel z.B.

durch einen Netzwerkfehler verloren, wird es automatisch erneut gesendet.

Ein weiterer Vorteil von Storm ist die Ausfallsicherheit. So werden Work Threads auf den Nodes

automatischvomMasterNodeneugestartet,fallsdorteinFehlerauftritt.DesWeiterenfindetein

automatisches Loadbalancing zwischen einzelnen (gleichen) Nodes statt.

Storm bietet überdies eine einfache vertikale Skalierbarkeit durch das Hinzufügen von Worker-

Nodes. Dazu ist es allerdings erforderlich, dass die Topologie neu gestartet wird. Das Hinzufügen

„on-the-fly“istderzeitnochnichtmöglich.

13

Page 14: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien

AusblickOhne Zweifel gehören Big Data-Bestände zu den wichtigsten Ressourcen vieler Unternehmen,

ausdenensichErkenntnissefürdieEntwicklungneuerGeschäftsmodelle,ProdukteundStrate-

gien ziehen lassen. Bald wird es normal sein, Big Data-Analysen zur Unterstützung von Entschei-

dungsprozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht

einführen, riskieren Wettbewerbsnachteile.

IndennächstenJahrenwirddasAngebotanindividualisiertenLösungenundEchtzeitprodukten

wirdstarkzunehmen.DamitwerdensichauchneueTätigkeitsfeldererschließen,dieFachkräfte

benötigen. Bald wird es normal sein, Big Data-Analysen zur Unterstützung von Entscheidungs-

prozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht einfüh-

ren, riskieren Wettbewerbsnachteile.

Im Moment stehen die meisten Unternehmen jedoch erstmal vor der Herausforderung, ein ge-

eignetesBigData-Konzeptfürsichzuidentifizieren.Dabeiisteswichtig,individuelleBedürfnisse

herauszuarbeiten und darauf basierend die richtigen Technologien einzuführen.

14

Page 15: Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

it-novum Profil

Ihr Ansprechpartner für Business Intelligence und Big Data: Stefan Müller Director Big Data Analytics [email protected]+49(0)661103942

Warum Sie mit it-novum sprechen sollten... Wir setzen diese Business Intelligence- und Big Data-Vorteile gewinnbringend für Unternehmen um:

▶ 360-Grad Blick auf Ihre Kunden ▶ Fachabteilungen werten dank Self-Service Analytics Big Data-Daten selbst aus ▶ IdentifikationneuerUmsatzquellendurchintelligenteNutzungvonUnternehmensdaten ▶ Kosteneinsparung durch Einsatz eines Data Warehouse ▶ Vermeidung des aufwändigen und fehleranfälligen Excel-Chaos

Wenn Sie diese Vorteile auch in Ihrem Unternehmen nutzen wollen, sollten wir uns kennenlernen!

Als Spezialist für die Implementierung von BI- & Big Data-Lösungen und -Technologien auf Open Source-Basis bieten wir Ihnen…

▶ Beratung ▶ Anwenderschulung (Public oder Inhouse) ▶ Proof of Concept ▶ Beratungs-Workshop (Konzeption, Deployment Assurance) ▶ Datenintegration und Data Warehouse ▶ Reporting und Analysen ▶ Dashboards und Datenvisualisierung (CTools) ▶ Systemeinführung (nach PRINCE2 oder agile Methodik) ▶ SAP/Pentaho Connector für die Verarbeitung von SAP-Daten ▶ ErwerbvonkommerziellenLizenzen,z.B.vonPentahooderJedox ▶ Implementierung von Data Lakes ▶ Predictive Analytics

Führend in Business Open Source-Lösungen und -Beratung

it-novum ist das führende IT-Beratungsunternehmen für Business Open Source im deutschsprachi-gen Markt. Gegründet 2001, ist it-novum heute eine Konzerntochter der börsennotierten KAP AG. Mit unseren 85 Mitarbeitern betreuen wir vom Hauptsitz in Fulda und den Niederlassungen in Düsseldorf, Dortmund und Wien aus vorwiegend große Mittelstandskunden sowie Großunternehmen im deutsch-sprachigen Raum.