Real-Time-Analytics mit Spark und Cassandra

Real-Time Analytics mit Spark

und Cassandra

WidasConcepts Unternehmensberatung GmbH � Maybachstraße 2 � 71299 Wimsheim � http://www.widas.de

im März 2015 OSBI – Workshop

http://www.osbi-workshop.de/

REAL-TIME ANALYTICS?

Real-Time Analytics?

Real-Time Analytics mit Spark und Cassandra

CASSANDRA

Cassandra

Vorteile Cassandra: massiv skalierbare verteilte Datenbank

CAP frei einstellbar, für Analytics: AP

Shared Nothing, Peer to Peer

KKV – Wide Columnar/Partitions

Zeitreihen optimierte Datenmodelle

In Memory Tabellen

Daten-Lokalität mit Wide Partitions

Cassandra – Ring Struktur Jeder Knoten in Cassandra ist äquivalent ansprechbar Konfigurierbare Replikation (lokal, DC-weise)

Client

  „Can‘t Fail, Must Scale“ –System   Datenreplikation sichert Verfügbarkeit

  Knotenausfall wird automatisch behandelt

Verfügbarkeit

Client

Skalierbarkeit Cassandra im Vergleich

Quelle: Planet Cassandra

Anzahl Operationen (Read/Write) pro Sec – Anzahl Knoten

Kernelemente

Verarbeitung im DAG (Directed Acyclic Graph)

Resilent Distributed Datasets

lokale JVM Prozesse auf den Knoten

parallele Transformationen/Aktionen auf RDDs

Operationen: map, filter, groupBy … Aktionen: count, collect, save …

Spark - RDD

Resilent Distributed Datasets

immutable

partitioned

logical collection of records

rebuildable

materialized in memory

cached for future reuse

Spark – RDD – Transformationen und Aktionen (parallel)

Transformationen map filter groupByKey join …

Aktionen reduce collect count lookupKey …

Spark – RDD – Resilent

Resilent Distributed Datasets speichern ihre Herkunft (Lineage) damit kann jederzeit bei Ausfall die entsprechende Partition der RDD neu aufgebaut werden

HdfsRDD path: hdfs://…

FilteredRDD func:

contains(...)

MappedRDD func: split(…)

CachedRDD

Spark Performanz im Vergleich

Logistic Regression

127 s / iteration

first iteration 174 s further iterations 6 s

Quelle: University of California, Berkeley

Spark Stack

Spark Streaming real-‐time

Verarbeitung von Daten in

“micro” Batches

Spark SQL

HiveQL kompatibel

MLLib machine learning

Classification Clustering Regressing col. Filtering

GraphX

spez. RDDs Operationen PageRank SVD++

Integration

Spark & Cassandra

Integration – Spark & Cassandra mit Spark-Cassandra Connector Cassandra Tabellen sind als RDDs verfügbar auf jedem Cassandra Knoten wird ein Spark Executor eingesetzt

Vorteile der Integration zwischen Spark und Cassandra

Daten Lokalität, Token-Aware

Spark RDDs auf In Memory C* Tabellen

SQL auf Cassandra (Joins!)

Datenbank-basierte Filter in Spark

Spark Streaming wird unterstützt

Beide Richtungen: Read and Write

Spark Streaming

batches of X seconds

live data stream

processed results Spark

Spark Streaming

live data stream

Spark Streaming

live data stream

Spark Streaming

live data stream

processed results

Spark Streaming

Batches

Datenstrom

Ergebnisse

Spark Streaming

Integrierbar mit Cassandra/Spark Treiber

Micro Batches (1 Sek), Discretized Streams

Exactly Once Semantik

RDD Funktionalität

Integration diverser MQ (z.B. Kafka) 5

Umfeld

Weiterentwicklungen im Spark Umfeld

SparkR, PySpark

Spark Integration in R

lapply Implementierung

kann in Closures in R verwendet werden

Interaktives R mit Spark möglich 5 auf Daten in Cassandra 6

In Zukunft ?

Trennung wirklich „noch“ notwendig ?

Ist das nicht ein zu „großer“ Toolstack?

Vielleicht etwas einfacher?

Die Lösung für Analytics? (mit etwas HDFS)

WidasConcepts

HighEnd-Technology requires HighEnd-Competence ( Wir beraten Sie gerne

WidasConcepts GmbH

Maybachstraße 2 71299 Wimsheim

www.widas.de

Dieses Dokument wurde von WidasConcepts erstellt. Die Verteilung, Zitierung und Vervielfältigung – auch auszugsweise – zum Zwecke der Weitergabe an Dritte ist nur mit vorheriger schriftlicher Zustimmung von WidasConcepts gestattet.

This presentation was created by WidasConcepts. Distribution, citation, copying - completely or in extracts – for transfer purposes, is only permitted with prior written agreement. These abstracts and graphics were deployed by WidasConcepts within the scope of a presentation.

It is no complete documentation of this event.

Thomas Mann, Solution Architect

Telefon: +49 (7044) 95103 – 100 Mobile: +49 162 259 56 90

Mail: thomas.mann@widas.de

Real-Time-Analytics mit Spark und Cassandra

Data & Analytics

Cisco Spark Board · Das Cisco Spark Board unterstützt Teams bei der Zusammenarbeit in Präsenzmeetings. Die sichere Verbindung mit einer virtuellen Umgebung ermöglicht zudem einen

IDEA App Analytics P2P - Audicon · 1 Neuerungen IDEA App Analytics P2P 1.0 IDEA App Analytics P2P Versoni 10. Die neue App Analytics P2P wird in SmartAnalyzer, dem in IDEA integrierten

Holly Black & Cassandra Clare - Weltbild.de · Holly Black & Cassandra Clare Der Weg ins Labyrinth Übersetzung aus dem amerikanischen Englisch von Anne Brauner

BMW Spark Ingition Efficiency Technology

Key Value Stores - Dynamo und Cassandra · 3 Apache Cassandra 14 ... Für eine ausführlichere Einführung in das Thema sei außerdem auf [Bre10] verwiesen, der Allgemeines zum Thema

Cassandra Kehren Portfolio 2016

Der Funke springt über: Apache Spark in einem Raspberry ... · Apache Spark top-level Projekt Spark sortiert 100TB in 23 min, Hadoop in 72 min 2002 2004 2006 2008 2010 2012 2014

The DCDB Framework - TUMmediatum.ub.tum.de/doc/1452834/915314.pdf · Cassandra NoSQL database. Using an efﬁcient way of storing time se-ries data using the Cassandra data model,

Skalierbare Datenanalyse mit Apache Spark: Implementation ...edoc.sub.uni-hamburg.de/haw/volltexte/2015/3043/pdf/BA_Kirchner.pdf · Komponente (Spark Streaming Library) und einer

SI Analytics

Google Analytics Konferenz 2013: Holger Tempel, webalytics: Universal Analytics Codewise

Apache Cassandra - Einführung

Spark Plugs Passenger (2)

Cassandra - Eine Einführung

Spark Plasma Sintern eines modernen Knochenersatzmaterials

Google Analytics Konferenz 2013: Holger Tempel, webalytics: Universal Analytics - Business

Facebook Analytics

J LD S 2017 August 2015 IEGERTITEL - julid-online.de · Parabatai zu verlieben… Ich liebe Cassandra Clares Bücher einfach. Auch Lady Midnight hat da keine Ausnahme gebildet. Cassandra

Hybride Cloud Datacenter - netclose.ch · NFS/iSCSI/SMB requests Stargate Cassandra Zookeeper Curator Prism Hypervisor/ client Medusa restFUL API Cluster components: - Cassandra (distributed

Datenanalyse mit Apache Cassandra und mobiler Statistik · Verwendbarkeit von Apache Cassandra aufweisen. Bei der Verarbeitung der Daten werden zwei wesentliche Punkte behandelt,