8
Big Data mit Hadoop – Einstieg, Überblick und Checkliste White Paper

Big Data mit Hadoop - SAS: Analytics, Artificial ...€¦ · 1 . Big Data mit Hadoop – Einstieg und Überblick Den Wert von Big-Data-Analytics-Projekten stellt heute niemand mehr

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Big Data mit Hadoop – Einstieg, Überblick und Checkliste

White Paper

2

Inhaltsverzeichnis

1. Big Data mit Hadoop – Einstieg und Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1 Hadoop ist „in“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Entlastung des klassischen DWH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 In-Memory als Turbo für Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 Konkrete Einsatzmöglichkeiten in den Branchen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Checkliste zum Praxiseinsatz von Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1 Hadoop verstehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Prozess zur Datenaufbereitung ändern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Datenexploration ermöglichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.4 In-Memory Analytics nutzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.5 Möglichkeiten moderner Analyse ausschöpfen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.6 Textdaten in den Analytics-Mix aufnehmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.7 Modelleinsatz operationalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.8 Praxiseinsatz: Exploration von Big Data in Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3

1 . Big Data mit Hadoop – Einstieg und ÜberblickDen Wert von Big-Data-Analytics-Projekten stellt heute niemand mehr infrage. Der US-Analyst Tom Davenport postuliert in seinem aktuellen Buch „Big Data at Work“ Kosteneinsparungen, schnellere und bessere Entscheidungen, neue Produkte und Services als wichtigste Vorteile der Analyse großer polystrukturierter Datenbestände. Das Open-Source-Framework Hadoop ist – mit der passenden analytischen Infrastruktur – ein fast idealer Partner für Big Data Analytics.

Hadoop ist heute als kostengünstige Lösung für die verteilte Speicherung und parallele Verar-beitung von sehr großen Mengen an semi- und unstrukturierten Daten ein integraler Bestandteil der Big-Data-Anwendungslandschaft. Die Vorteile liegen auf der Hand: Hadoop bietet einen De-facto-Standard, ist branchenübergreifend und kostengünstig nutzbar. Wer heute Big Data sagt, meint längst auch Hadoop, denn diese Plattform erfüllt die Voraussetzungen für eine Ana-lyse riesiger Mengen an polystrukturierten Daten:

• Parallel Processing: Das Distributed-Computing-Modell sorgt dafür, dass riesige Daten-volumen schnell verarbeitet werden können.

• Skalierbarkeit: Die Systeme lassen sich ganz einfach durch Hinzufügen von Knoten erweitern, und das praktisch hardwareunabhängig.

• Speicherflexibilität: Im Gegensatz zu herkömmlichen relationalen Datenbanken müssen Daten nicht aufbereitet werden, um sie zu speichern; auch unstrukturierte Daten werden problemlos gespeichert.

Die IT-Welt steht mit Hadoop vor dem nächsten Paradigmenwechsel: Kostengünstige Commodi-ty Hardware, meist unter Linux betrieben, läuft teuren Spezialservern den Rang ab, denn Hadoop stellt nur geringe Anforderungen an die darunterliegende Plattform. Für Unternehmen, die ihre Daten auswerten wollen, bedeutet dies auch eine Befreiung aus der Bindung an einen bestimm-ten Datenbankanbieter.

1 .1 Hadoop ist „in“

Analysten sagen Hadoop eine blühende Zukunft voraus, IDC geht von einem Jahreswachstum von 60,2 Prozent auf 812,8 Millionen US-Dollar im Jahr 2016 aus. Der Erfolg von Hadoop zeigt sich nicht zuletzt auch in der Historie: Was Anfang des Jahrtausends zuerst in Google- Forschungspapieren für ein verteiltes Dateisystem und ein clustertaugliches Datenverarbei-tungsverfahren skizziert wurde, wird heute als Apache-Projekt und von kommerziellen Distribu-tionen (zum Beispiel Cloudera oder Hortonworks) vorangetrieben. Und diese Distributionen bekommen die volle Aufmerksamkeit der großen Unternehmen: So hat Intel jüngst 740 Millionen US-Dollar für einen Anteil von 18 Prozent an Cloudera investiert, ein Börsengang steht in Aussicht.

1 .2 Entlastung des klassischen DWH

Kosteneinsparungen gehören zu den wichtigsten Vorteilen beim Einsatz von Hadoop. Hadoop ist gleichzeitig kostengünstige Storage- und Computing-Plattform. Hadoop ist allerdings kein Ersatz für eine Datenbank im herkömmlichen Sinn. In Hadoop werden Daten vorverarbeitet und veredelt, bevor sie in das klassische Enterprise Data Warehouse (DWH) eingespielt werden. Dies entlastet das DWH und befreit Ressourcen, die bislang für ETL-Aufgaben gebunden waren.

4

1 .3 In-Memory als Turbo für Big Data

Hadoop verfügt zwar über das MapReduce-Framework zur parallelen Verarbeitung großer Mengen strukturierter und insbesondere unstrukturierter Daten, für Big Data Analytics reicht dies alleine jedoch noch nicht aus. Benötigt wird eine In-Memory-Verarbeitung, die den Einsatz moderner Analyseverfahren wie Advanced Statistics, Data Mining, Machine Learning, Text Mining oder Empfehlungssysteme zulässt beziehungsweise beschleunigt. Mit diesem Ansatz wird die Zeit für die Erstellung eines prädiktiven Modells von Stunden auf Minuten reduziert. Zudem bietet die In-Memory-Technologie einen besseren Zugriff auf die Daten und eine effek-tivere Interaktion, analytische Modelle lassen sich „on the fly“ anpassen.

Ein nicht zu vernachlässigender Punkt ist auch die Einbindung in die vorhandene IT-Landschaft. Hadoop lässt sich unkompliziert in die Unternehmens-IT integrieren. In Verbindung mit Big-Data-Analytics-Lösungen wie denen von SAS erhalten Unternehmen eine Analytics-Plattform, mit der sich Massendaten in Echtzeit auswerten lassen.

1 .4 Konkrete Einsatzmöglichkeiten in den Branchen

Hadoop eröffnet eine Umgebung für Datenspeicherung und analytische Verarbeitung in verschiedensten Geschäftsbereichen. Dazu gehören zum Beispiel:

• Financial Services: Risikomanagement bei Versicherungen, Betrugserkennung oder Analyse von Kundenverhalten

• Handel: Location-based Marketing, persönliche Empfehlungen und Website-Optimierung

• Telekommunikation: Bandbreitenzuteilung, Analyse der Netzwerkqualität und der Nutzungsstruktur

• Gesundheitswesen und Life Sciences: Genomdaten in medizinischen Versuchen und Einhaltung von Verschreibungsrichtlinien

• Produktion: Logistik und Ausfallsicherung

• Öl, Gas & Utilities: Prädiktive Wartung, Optimierung der Anlagennutzung und Kontrolle der Gerätesicherheit

• Öffentliche Verwaltung: Sentiment-Analyse, Betrugserkennung und „Smart-City“-Initiativen

5

2 . Checkliste zum Praxiseinsatz von HadoopWie lässt sich das Potenzial von Big Data mithilfe von Hadoop ausschöpfen? Unternehmen stellen sich Fragen wie „Wie gehe ich bei der Datenaufbereitung auf Hadoop vor?“, „Welche Analysetechniken gibt es, um Hadoop-Daten auszuwerten?“, oder „Wie nutze ich Hadoop in Verbindung mit In-Memory-Verarbeitung?“ Diese und weitere Fragen lassen sich anhand der folgenden Checkliste beantworten.

2 .1 Hadoop verstehen

Hadoop ist keinesfalls selbsterklärend. Das Open-Source-Projekt umfasst folgende Komponenten:• Hadoop Distributed File System (HDFS) als kostengünstiger, bandbreitenstarker Datenspeicher

• MapReduce Engine für hochperformantes Distributed/Parallel Processing

Hadoop erfordert im Gegensatz zum Data Warehouse kein vorgegebenes Schema. Daten jedes Typs können aus beliebiger Quelle erhoben werden, und erst dann wird entschieden, wie diese Daten organisiert werden sollen. Das heißt, man muss noch nicht wissen, wie die Tabellen aus-sehen, bevor die Daten geladen werden. Das prädestiniert Hadoop für unstrukturierte Daten. Die Kehrseite ist, dass Hadoop nicht für die iterative Verarbeitung optimiert ist, die Analytics oft-mals erfordert. Hier helfen gebündelte Angebote im Rahmen von kommerziellen Distributionen.

2 .2 Prozess zur Datenaufbereitung ändern

Die aktive Kontrolle der Datenqualität ist bei der Analyse großer, polystrukturierter Datenbestände genauso unerlässlich wie ein Metadatenkonzept. Diese stellt jedoch ganz andere Anforderungen als das Reporting über ein Data Warehouse, wo die Daten vordefiniert sind. Big Data Analytics schafft die Möglichkeit, Daten ungefiltert und unvoreingenommen auszuwerten. Dies erfordert einerseits raffinierte Analytics-Techniken und andererseits eine Untersuchung und Aufbereitung, um interessante Variablen für Vorhersagen, fehlende Werte oder Ausreißer auszumachen.

2 .3 Datenexploration ermöglichen

Datenexploration ist elementar, um Erkenntnisse aus den vorhandenen Daten zu gewinnen oder interessante Variablen für tiefer gehende Analysen zu bestimmen. Die Erstellung von Reports oder Modellen ist dann der nächste Schritt. Dafür stehen verschiedene Techniken zur Verfügung. Abfragen können mithilfe von MapReduce verteilt gefahren werden. Nachteil dabei ist, dass es mit HiveQL Minuten oder sogar Stunden dauern kann, bis man eine Antwort bekommt. Visuali-sierung ist oftmals die beste Möglichkeit zur verständlichen Darstellung der Analyseergebnisse. Analytische Darstellungsformen wie Box- oder Streu-Diagramme, Wortwolken, konzeptuelle Netzwerkdiagramme oder Heatmaps verschaffen aussagekräftige Ansichten und bilden den Ausgangspunkt für weitere Analysen. Deskriptive Statistiken sind ebenfalls ein praktikabler An-satz, um Daten zusammenzufassen und auszuwerten.

2 .4 In-Memory Analytics nutzen

In-Memory Analytics führt Datenverarbeitung und mathematische Berechnungen im Arbeitsspei-cher des Rechners aus und vermeidet so zeitaufwendige I/O-Prozesse. Weil die Bewegung der Datenmengen entfällt, ist diese Methode um ein Vielfaches schneller, wovon vor allem moderne Analysetechniken wie Advanced Statistics, Data Mining, Machine Learning, Text Mining oder Empfehlungssysteme profitieren. Neben der besseren Analyse-Performance bietet In-Memory höhere Interaktivität, und das Modell lässt sich spontan anpassen.

6

2 .5 Möglichkeiten moderner Analyse ausschöpfen

Moderne Ansätze halten Algorithmen für die komplexe Analyse von strukturierten und unstruk-turierten Daten bereit. Zu den am häufigsten eingesetzten statistischen Methoden gehören Mustererkennung, Klassifizierung, Prognoseerstellung, Optimierung oder Empfehlung. Data Mining hilft bei der Entdeckung von Mustern und verborgenen Beziehungen in den umfassenden polystrukturierten Datenbeständen, wobei Regression und Hauptkomponentenanalyse zum Einsatz kommen. Ebenso wird maschinelles Lernen (Machine Learning) für die Erstellung von Vorhersagen verwendet: Hier nutzt ein Computer automatisch die vorangegangenen Beobach-tungen für weiterführende Erkenntnisse.

2 .6 Textdaten in den Analytics-Mix aufnehmen

Unstrukturierte Daten in Form von Text finden sich in E-Mail-Nachrichten, Artikeln, sozialen Netzen, Blogposts und unendlich vielen anderen Quellen. Sie geben oftmals Antwort auf das „Warum?“ hinter bestimmten Aktionen. Im Hadoop-Cluster bilden Textdaten einen großen Anteil aller dort vorgehaltenen Daten. Als Dateisystem ist HDFS besonders geeignet für die Speicherung von halb- oder unstrukturierten Daten.

Textanalyse kombiniert Natural Language Processing mit statistischen Verfahren, um bestimmte Entitäten und Fakten (Person, Ort, Gegenstand), Konzepte (Wortverbindungen, die eine bestimmte Idee transportieren), Themen (Gruppe von zusammen auftauchenden Konzepten) oder Meinungen und Stimmungen aus den Textdaten zu ziehen und für die Analyse zu nutzen. Sind die Daten extrahiert und strukturiert, können sie mit vorhandenen strukturierten Daten in Verbindung gebracht und zum Beispiel für prädiktive Modellbildung verwendet werden.

2 .7 Modelleinsatz operationalisieren

Big Data Analytics bringt nur dann einen Mehrwert, wenn die Ergebnisse des einmal eingesetzten Modells in die laufenden Geschäftsprozesse integriert und somit genutzt werden, um bessere Entscheidungen zu treffen. Dazu ist es notwendig, das Modell direkt in den operativen Data Store zu integrieren, was als „In-Database Scoring“ bezeichnet wird. Hauptvorteil: Die Datenverarbei-tung findet direkt im Data Store statt, die Notwendigkeit, Daten zu bewegen, entfällt, was viel Zeit und große Ressourcen spart – vor allem bei Big Data. Bereits Bestandteil in allen wichtigen Datenplattformen soll In-Database Scoring auch in Hadoop eingebunden werden. Die Verarbei-tung funktioniert so: Wenn neue Daten in Hadoop einlaufen, werden die gespeicherten Model-Scoring-Dateien für MapReduce-Funktionen genutzt, um das Scoring-Modell auf diese neuen Informationen anzuwenden. So entstehen sehr rasch verwertbare Ergebnisse.

2 .8 Praxiseinsatz: Exploration von Big Data in Hadoop

Eine für den Benutzer besonders einfache Möglichkeit, aus den riesigen polystrukturierten Da-tenvolumen in Hadoop einen Mehrwert zu ziehen, ist einfaches „Point and Click“ oder „Drag and Drop“ mittels einer grafischen Nutzeroberfläche, wie sie etwa SAS® Visual Analytics bietet. Der Hauptvorteil: Für Big-Data-Analysen auf Hadoop mit SAS Visual Analytics sind keinerlei Program-mierkenntnisse erforderlich.

Für Anwender, die eine Programmierumgebung und die damit verbundene Kontrolle und Flexi-bilität bevorzugen, bietet sich SAS® In-Memory Statistics for Hadoop an. Data Scientists sind mit der interaktiven Programmierumgebung in der Lage, analytische Datenaufbereitung, variable Transformation, exploratorische Analysen, Techniken für statistische Modellbildung und maschi-nelles Lernen, integriertes Modeling und Scoring innerhalb der Hadoop-Umgebung durchzu-führen.

7

3 . FazitUnternehmen setzen mehr und mehr auf moderne Analysetechnologien, um sich Wettbewerbs-vorteile zu sichern. Damit einhergehend verändern sich die Daten und die darunterliegende Infrastruktur signifikant. Das neue analytische Ökosystem basiert auf verschiedenen Technologie-faktoren, wobei Big Data, Hadoop und moderne Analytics als Eckpfeiler gelten dürfen. Wenn diese drei Faktoren zusammenspielen und das Open-Source-Framework als „Big-Data-Betriebs-system“ genutzt wird, sind Unternehmen bestens gerüstet, um aus ihren Daten ein Maximum an Geschäftswert zu ziehen.

P12

15-

0019

GM

S087

13

SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. ® indicates USA registration. Other brand and product names are trademarks of their respective companies. Copyright © 2015, SAS Institute Inc. All rights reserved.

To contact your local SAS office: www.sas.com/germany Phone: +49 6221 415-300 www.sas.com/austria Phone: +43 1 252 42-0 www.sas.com/switzerland Phone: +41 44 805 74-74