8
WHITE PAPER In-Memory Analytics für Big Data Bahnbrechende Technologie für schnellere und tiefere Einblicke

In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

WHITE PAPER

In-Memory Analytics für Big DataBahnbrechende Technologie für schnellere und tiefere Einblicke

Page 2: In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

2

SAS White Paper

Einführung: eine neue Generation von AnalyticsIm Zeitalter von Big Data sind Unternehmen auf die Analyse ständig wachsender, heterogener Datenmengen angewiesen. Verlässlich müssen Mitarbeiter riesige Daten-berge auswerten und benötigen hierfür durchdachte Analyse-Tools. Traditionelle, relationale Datenbanksysteme sind für eine tiefgreifende, über eine SQL-basierte weit hinausgehende analytische Auswertung aber kaum geeignet. Manche Anbieter arbeiten noch mit relationalen und OLAP-Technologien, die bereits seit 20 Jahren veraltet sind, vermarkten sie aber als neu und verbessert.

SAS verfolgt hier einen anderen Ansatz. Der SAS® LASR™ Analytic Server adressiert als weltweit erstes System unterschiedlichste anspruchsvolle Analyse-Szenarien größter Datenmengen im Hauptspeicher. Der SAS LASR Analytic Server basiert auf den Design-Prinzipien von SAS CEO Jim Goodnight und sorgt als Nicht-SQL- und Nicht MDX-Server dank eingebauter massiv-paralleler In-Memory-Analyse-Engine für maxi-male Performance bei der Auswertung.

Basierend auf Standard-Hardware und verteilten, parallelen Architekturen für Big Data bietet die Lösung eine ganz neue Art von In-Memory-Technologie für die nächste Ge -neration hochleistungsfähiger Analytics. Die SAS LASR Analytic Server-Techno-logie wurde von Anfang an auf höchste Performance bei analytischen Auswertungen entwickelt. Durch die einzigartige Performance und Skalierbarkeit lassen sich Fragen beantworten, die bisher wegen beschränkter Rechnerkapazitäten nicht zu meistern waren. Anwender können Daten erforschen und analysieren und eine Vielzahl von Big Data-Herausforderungen stemmen: Typische Anwendungen sind etwa Risiko-manage ment, Kundenmanagement, Gewinnoptimierung sowie Waren- und Sortiments-planung.

Page 3: In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

3

In-Memory Analytics für Big Data

SAS® In-Memory: ÜberblickSAS bietet eine In-Memory-Umgebung für interaktive, anspruchsvolle Analyse-Work-loads. Die Lösung ist besonders gut für die explorative Erkundung großer Daten- mengen geeignet und visualisiert Zusammenhänge mit Advanced Analytics-Methoden.

Mit nahezu verzögerungsfreien Abfragen und Berichten auf Millionen von Datensätzen demonstrieren einige Anbieter die Leistungsfähigkeit ihrer neu entwickelten Daten-banken. Was die anspruchsvollere Fachöffentlichkeit heute erwartet, beherrschen diese Systeme jedoch nicht: verteilte Analysen und prognostische Modelle auf Basis von Hunderten oder Tausenden Varianten.

Deutlich wird dies anhand eines einfachen Beispiels wie etwa eines Box-Plots: Nume rische Daten lassen sich durch zusammenfassende Berechnungen – Minimum, Maxi mum, oberes und unteres Quartil sowie Median – anschaulich grafisch darstellen. Box-Plots visualisieren die Verteilung von Datenwerten mehrerer Gruppen gleichzeitig, um z. B. Werteausreißer schnell erkennen zu können (Abbildung 1), über die Darstel-lung von Ranglagemaßen, die die meisten SQL-basierten Systeme nicht unter stützen. Bei den häufigsten beschreibenden statistischen Berechnungen unterliegen SQL- basierte Lösungen einigen Einschränkungen, wie etwa Spaltenbegrenzungen, verfügbarem Hauptspeicher und begrenzter Unterstützung von Dateiformaten. Zudem erfordert die iterative Natur von Datenanalysen und Data Mining-Operationen – wie etwa Variablenselektion, Größenreduzierung, Visualisierung, komplexer Datentrans-formationen und Modell-Training – viele wiederholte Datenoperationen. Für diese Pro zesse sind SQL- und relationale Technologien völlig ungeeignet. Diese Nach teile relationaler Technologie umgeht SAS mit einer In-Memory-Engine, die Datenanalysen, prognostische Modelle, Vorhersagen und Optimierungen beschleunigt.

Abb. 1: Mit SAS LASR Analytic Server lassen sich Box-Plots auf Basis zahlreicher Variablen in Sekunden erzeugen.

Page 4: In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

4

SAS White Paper

Zum nächsten Beispiel (Abbildung 2), einer einfachen Heat Map, mit einem Regres-sionsmodell überlagert. Die meisten Systeme schicken hier die Daten an die Frontend-Reporting-Tools zurück, wo fortlaufende komplexe Berechnungen ausgeführt werden. Wird jedoch viel Rechenleistung benötigt, um Informationen zu analysieren und zu erzeugen, kann dies zu Engpässen führen. Die In-Memory-Technologie von SAS führt die Rechenoperationen rasch und parallel auf dem Server aus. Im Ergebnis gewinnen die Berechnungen an Fahrt, da keine großen Datenmengen bewegt werden und sich viele Rechner-Blades nutzen lassen. Mit SAS findet die Datenverarbeitung auf dem Analyse-Server statt, wobei kleine Ergebnismengen an den Client zur Präsenta-tion anstatt zur Berechnung zurückgeschickt werden.

Abb. 2: Eine Korrelationsanalyse überlagert mit einem Regressionsmodell; Millionen von Variablen lassen sich mit der SAS In-Memory-Technologie extrem schnell erzeugen.

SAS® In-Memory: ArchitekturenDer SAS LASR Analytic Server lässt sich als neue Thin Layer-Technologie mit verteilten Rechnerumgebungen wie Hadoop oder mit relationalen Datenbanken wie Teradata und Greenplum betreiben. Der Server im Backend stellt ein hohes Reaktionsvermögen und einen extrem hohen Datendurchsatz zur Verfügung – also genau das, was große Analyse-Workloads und analyseintensive Anwendungen benötigen. Applikationen grei-fen auf den SAS LASR Analytic Server über direkte Anschlüsse und Standardschnitt-stellen zu.

SAS® LASR™ Analytic Server mit Hadoop

Im heutigen Big Data-Dschungel bewegen sich die zu verarbeitenden Datenmengen üblicherweise im mehrstelligen Terabyte- oder sogar Petabyte-Bereich. Früher hätte die Datenspeicherung von nur wenigen Terabytes Kosten in Millionenhöhe verursacht. Hadoop macht dem ein Ende: Die Open Source-Software unterstützt sowohl beim Speichern von Daten als auch bei deren Analyse. Dabei sind der Parallelisierung keine Grenzen gesetzt und Unternehmen können nahezu beliebig viele Server und Knoten nutzen, um Datenmengen im Petabyte-Bereich zu durchforsten. Anstatt spezieller, proprietärer Hard- und Software lassen sich dafür mit Hadoop Standard-Hardware-

Page 5: In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

5

In-Memory Analytics für Big Data

Komponenten einsetzen. Für SAS Lösungen bietet Hadoop eine offene, einfache und robuste Architektur, die den Ansprüchen hinsichtlich Ausfallsicherheit, Redundanz und Skalierbarkeit in vollem Umfang entspricht.

In jedem Hadoop-Knoten empfängt ein Thin Layer-Prozess eingehende SAS Befehle und gibt die Ergebnisse zurück (Abbildung 3). SAS muss nicht auf jedem Knoten installiert werden, da Hadoop sorgfältig die Abläufe verteilt, den Speicher verwaltet und den gesamten Workload steuert.

Abb. 3: SAS bietet zwei Optionen für das Laden von Daten in den SAS LASR Analytic Server: Abhängig von den Anforderungen und der Datenmenge lassen sich entweder Daten aus der Hadoop-Speicherschicht in den Server laden (wie im unteren Teil des Diagramms gezeigt). Oder die Hadoop-Speicherschicht wird umgangen und der Daten-bestand wird direkt in den SAS LASR Analytic Server geladen (im Diagramm links).

Geht man etwas mehr in die Tiefe (Abbildung 4), wird deutlich, dass der SAS LASR Analytic Server direkt auf dem Hadoop Distributed File System (HDFS) arbeitet und herkömmliche MapReduce-Tasks umgeht. MapReduce ist ein Hadoop-eigenes Ver-fahren für den Datenumgang und einfache Analyse-Tasks in der Hadoop-Umgebung.Es fehlen jedoch wichtige Funktionen für die Kommunikation zwischen den Knoten. Diese Funktionen haben eine entscheidende Bedeutung für die extrem anspruchsvolle Analysetechnologie von SAS. Zudem bietet das MapReduce-Modell nicht die In-Memory-Umgebung, die für Analyse-Tasks mit einer Vielzahl von Datendurchgängen benötigt wird. Andererseits optimiert der SAS LASR Analytic Server die Homogenität der Daten im Speicher und sorgt so für eine schnelle, konstante Verarbeitung – sogar bei gleichzeitigem Zugriff mehrerer Anwender.

Bedeutsam ist, dass die SAS/ACCESS®-Schnittstelle zu Hadoop sowie neue Funk-tionen in Base SAS® und die Studiokomponente des SAS® Enterprise Data Integration Server die Hive- und Pig-Sprachen von Hadoop zusammen mit MapReduce nutzen, um auf Daten in HDFS zuzugreifen. Dies erleichtert die Integration von SAS und Hadoop enorm.

Page 6: In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

6

SAS White Paper

Abbildung 4: HDFS ist das wichtigste Speichersystem für Hadoop-Applikationen. SAS bietet zwei Optionen für den Zugriff und die Verarbeitung von Daten, die auf HDFS liegen.

SAS® LASR™ Analytic Server mit Greenplum oder Teradata

Die heute führende Data Warehouse-Technologie wurde Mitte der 1990er Jahre populär und hat die betriebliche Datenanalyse entscheidend verändert: Aus einem reinen Abfrage- und Berichtswesen im Back-Office wurde ein wichtiges Hilfsmittel zur operativen Entscheidungsfindung. Die Hardware-Architektur und hochprofessionelle Funktio -nen machen die Data Warehouse-Lösungen von Teradata und Greenplum zu einer hervorragenden Plattform für die In-Memory-Technologie von SAS.

In den vergangenen Jahren hat SAS eng mit RDBMS-Partnern wie Teradata und Green-plum zusammengearbeitet. Dadurch integriert sich SAS nahtlos in deren verteilte Rechnerarchitekturen und bringt den SAS Prozess in Einklang mit den Daten – und nicht umgekehrt. Umfangreiche, relationale Datenbanken nach dem Shared Nothing-Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung, Prozessmanagement und Speicherverwaltung die nötigen Voraussetzungen für relationale Analyseprozesse.

Page 7: In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

7

In-Memory Analytics für Big Data

Abbildung 5: Wie die meisten MPP-basierten Data Warehouse-Lösungen nutzen auch Greenplum und Teradata eine Shared Nothing-Architektur. Auf jedem Knoten kommuni-ziert die Thin Layer-basierte In-Memory-Technologie von SAS mit den verteilten Daten.

Fazit: Leistungsschub für schnellere und präzisere InformationenApplikationen in Unternehmen basieren oft auf einem sehr großen, breiten und tiefen Datenbestand. Dieser kann sowohl den Speicher als auch die CPU stark beanspru-chen, stellt aber meist keine hohen Anforderungen an die Langlebigkeit der Daten. Herkömmliche, relationale Technologie erfüllt nicht die hohen Ansprüche von moder-nen Analyseverfahren. Der SAS LASR Analytic Server hingegen bietet speziell für die nächste Generation fortschrittlicher Echtzeit-Analytics eine innovative, dezentrale In-Memory-Umgebung. Damit können Anwender Daten erforschen und analysieren und eine Vielzahl von Big Data-Herausforderungen meistern, wie etwa Risikomanage-ment, Kundenmanagement, Gewinnoptimierung sowie Waren- und Sortimentspla-nung.

Auf Basis von Standard-Hardware, marktführender Analyse-Software und In-Memory-Technologie bietet SAS ein professionelles System, das präzise Antworten auf alle geschäftlichen Fragen liefert – und zwar extrem schnell, intelligent, einfach und sicher.

Page 8: In-Memory Analytics für Big Data - Sas Institute...Prinzip, wie Teradata und Greenplum, sind die beste Wahl für die In-Memory-Techno-logie von SAS. Sie erfüllen hinsichtlich Datenverteilung,

P12

12-

0186

SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. ® indicates USA registration. Other brand and product names are trademarks of their respective companies. Copyright © 2012, SAS Institute Inc. All rights reserved.

Über SASSAS ist Marktführer bei Business Analytics-Software und weltweit größter unabhängiger Anbieter im Business Intelligence-Markt. Die SAS Lösungen für eine integrierte Unternehmenssteuerung helfen Unternehmen an insgesamt mehr als 55.000 Standorten dabei, aus ihren vielfältigen Geschäftsdaten konkrete Informationen für strategische Entscheidungen zu gewinnen und damit ihre Leistungsfähigkeit zu steigern. Mit den Softwarelösungen von SAS entwickeln Unternehmen Strategien und setzen diese um, messen den eigenen Erfolg, gestalten ihre Kunden- und Lieferantenbeziehungen profitabel, steuern die gesamte Organisation und erfüllen regulatorische Vorgaben. 90 der Top 100 der Fortune-500-Unternehmen vertrauen auf SAS. Firmensitz der 1976 gegrün-deten US-amerikanischen Muttergesellschaft ist Cary, North Caro lina (USA). SAS Deutschland hat seine Zentrale in Heidelberg und weitere Niederlassungen in Berlin, Frankfurt am Main, Hamburg, Köln und München.