Big Data Technologien - BICCnet...Prof. Dr. Jens Albrecht Big Data 30 Streaming Frameworks Storm...

Prof. Dr. Jens Albrechtjens.albrecht@th-nuernberg.de

Big Data Technologien- Ein Überblick -

Prof. Dr. Jens Albrecht Big Data 3

Big Data Landscape 2016

Appliance

Systemarchitektur im Wandel

Gestern und heute

Strukturierte DatenModerate Größe (S-XL)

"General Purpose"RDBMS

Heute und morgen

Polystrukturierte Datenin allen Größen (S-XXXL) {json}

<xml/>

InMemory

RDBMSHadoop

Streaming

ZweckoptimierteSpezialisten

Business Cases

Benefits of Big Data Technologies

Scalability

Throughput (Velocity)

Computing Power

Agility

Data Volume

Data Exploration

Schema-on-Read

Integration on Demand

EfficientDevelopment

DataVirtualization

Real-timeDecisions

SimplifiedData Access

AdvancedAnalytics

Cost Efficiency

BI/Big Data ArchitekturA

Klassische Datenquellen

OLTP-Systeme

Big-Data-Quellen

Dokumente, Server Logs, Sensor Daten,Social, Clickstream, GPS,

BusinessIntelligence

EnterpriseDWH

Data Marts

Predictive Analytics

OperationalAnalytics

In-MemoryRDBMS

ExplorativeAnalyse

Data Lake

Data Lake: Herausforderungen

Data Lake

Viele heterogene Datenquellen

Viele heterogene Nutzer

Skalierbare Integration On-the-fly,einfach zu entwickeln und zu betreiben

HadoopHDFS

Big Data Processing

Ingest Store Process AnalyzeAccess & Visualize

Data Sources

Map Reduce

Spark ML

Impala

SparklingWater

Looker

Zeppelin

Drill Datameer

Waterline

Governance

Ranger

Sentry

Batch vs. Stream

Clickstream

Transactions

Machine Logs

Sensor Data

Data Producers Batches of Data Batch Processing

Clickstream

Transactions

Machine Logs

Sensor Data

Stream Processing Streams of Data

Batch Processing & Analysis

YARN + Map Reduce

Distributed Storage (HDFS)

Hadoop

Batch-Processing-Framework

Komponenten

▸HDFS, HBase

▸ YARN, Zookeeper

▸Map Reduce, Hive, Pig, Sqoop, …

Stärken und Grenzen

▸ ausgereifte Basistechnologie

▸ umfangreiches Ökosystem

▸ breite Kompatibilität

▸MapReduce ist langsam und umständlich

Apache Spark – Swiss Army Knife of Big Data

☛ Agilität und Skalierbarkeit mit und ohne Hadoop▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)

▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung

▸ Einheitliches System für Batch- und Stream-Processing

Batch Processing

Machine Learning

JavaPython

Scala R

Data Streaming

Graph Processing

Apache Spark

Map Reduce vs. Spark

Quelle: https://spark.apache.org/examples.html

file = spark.textFile("hdfs://...")counts = file.flatMap(lambda line: line.split(" ")) \

.map(lambda word: (word, 1)) \

.reduceByKey(lambda a, b: a + b)counts.saveAsTextFile("hdfs://...")

… und in Spark

Hadoop-MapReduceWordcount in Java

Spark RDDs und DataFrames

http://de.slideshare.net/databricks/spark-sql-deep-dive-melbroune

SQL for Big Data

MR / Tez

HiveQL

Hive (Native Hadoop) Hadoop SQL Engines

DistributedSQL Engine

NoSQLHive

Format-agnostic SQL Engines

Relational

RDBMS with Hadoop Access

Hadoop

Stinger Big Insights

Datenbanken als Lego-Baukasten!?

SQL Prozessor

Verteilte Ausführung

Speicherverwaltung

Klassisches monolithisches System

SQL Prozessor

MapReduce

CSV Parquet Kudu

JSON Avro ???

Baukasten

• Generische Ausführungs-Engine• Metadaten-Sharing über Hive Repository oder

selbstbeschreibende Dateiformate• Operatoren-Push-Down durch intelligente Dateien

Streaming

Anforderungen an Streaming Frameworks

Low Latency

High Throughput Scale-out Absorb backpressure

Fault Tolerant No message lost Exactly-once delivery Preserve order

Powerful computation model and API

Lambda und Kappa Architektur

Streaming Data

Speed LayerKafka, Storm

Batch LayerHadoop, Spark

Serving LayerLambda

Streaming DataMessage Buffer

and BrokerKafka

Stream ProcessorFlink, Spark

Serving Layer

Speed Table

Batch Table

Streaming Frameworks

Storm Flink Spark Streaming

Delivery Guarantees at least once exactly once exactly once

Latency very low low high

Throughput medium high high

Processing Model stream stream micro-batch

Resource Management

YARN YARN YARN

Functionality stream-only stream & batch stream & batch

https://www.digitalocean.com/community/tutorials/hadoop-storm-samza-spark-and-flink-big-data-frameworks-comparedhttps://databaseline.wordpress.com/2016/03/12/an-overview-of-apache-streaming-technologies/

http://data-artisans.com/high-throughput-low-latency-and-exactly-once-stream-processing-with-apache-flink/

Entscheidungen

Volumen / Kapazität Durchsatz / Latenz

Konsistenz Verfügbarkeit / Performance

SQL NoSQL (API)

On-Premise Cloud

Batch Stream

Strukturen Agilität

1. Skalierbarkeit ist gegeben, Agilität und Effizienz bei Entwicklung und Betrieb sind erforderlich

2. Open Source Effekt 1: Big Data Technologien sind im ständigen Wandel und werden das auch bleiben

3. Open Source Effekt 2: Offene Schnittstellen und breite Kompatibilität

4. Open Source Effekt 3: Mächtige Werkzeuge für kleines Geld

Vielen DankJens.Albrecht@th-nuernberg.de

Big Data Technologien - BICCnet...Prof. Dr. Jens Albrecht Big Data 30 Streaming Frameworks Storm...

Documents

Herzlich Willkommen zum Finale des - aha.li · Once One Kurzfilm für eine Fantasy-Serie Once One ist ein „Proof of Concept“-Kurzfilm für eine historische Fantasy Serie aus St

Streaming Media Player - produktinfo.conrad.com€¦ · Streaming Media Player unterstützt die meisten bekannten Dateiformate, einschließlich MKV, MP4, XVID, AVI, WMV und MOV-Videoformate

Michael Diederich 10. Oktober 2007 Michael.Diederich@heureka.com Analyse Media Streaming

M AGENTA MOBIL YOUNG KOMMUNIKATION AB 06.03.19 D ER … · Gilt nicht für das Laden von Covern, Werbung und Streaming von Inhalten, die nicht zum reinen Audio-, Video- und Gaming-Streaming

Optimized dynamic multi-view video streaming using view

Diplomarbeit A Java-Based Streaming Media Serverreal-time media stream control and real-time media object transport capabilities, it is compatible with modern multimedia streaming

Once upon a time

Video-Livestreaming bei den Chemnitzer Linux-Tagen · Standards und Protokolle beim Streaming RTMP (Real Time Messaging Protocol, Macromedia/Adobe) HLS (HTTP Live Streaming, Apple)

Write Once, Run Nowhere (else)?“ - OIO · „Write Once, Run Nowhere?“ - Portabilität von J2EE-Anwendungen Fazit • Portabilität hat ihren Preis • Portabilität liegt selten

10028155 10028156 BDA auna KR200 Spotify DE EN FR IT · DLNA Streaming 15 Spotify Connect Shared Media Streaming DAB 18 FM-Radio 19 ... Equalizer Verschiedene Equalizer-Modi sind

ecotel @once SelfCare - LANCOM Systemsonc… · Mit ecotel @once SelfCare ist erstmals die nahtlose Erreichbarkeit Ihres IP-basierten Sprachanschlusses im Störungsfall sichergestellt

Judo%Paralímpico” ONCE%(Alicante) “Mónica%Merenciano

Analyse und Implementierung eines offenen Streaming ... · Mit PPLive, PPStream, SopCast [sop], TVAnts [tva] und UUSee kommen die kommerziell erfolgreichsten P2P-Streaming-Anbieter

Live Streaming mit Hangout On Air – Techniken, Inhalte ...Leseprobe Hannes Schleeh, Gunnar Sohn Live Streaming mit Hangout On Air Techniken, Inhalte & Perspektiven für kreatives

Juke Box S2 - Pro-Ject · 2020. 4. 28. · Juke Box S2 Plattenspieler, Verstärker & BT Streaming Audiophiler Plattenspieler mit Phono Preamp Streaming von Spotify etc. via Bluetooth

Spotify: Was der Musik-Streaming-Dienst für Unternehmen bietet - und was (noch) nicht

Solos Mais Famosos de Viol Once Lo - Orchester Probe Spiel Viol Once Lo

Streaming mit Microsoft Frank Koch (Bern) Technologieberater Developer & Platform Group Microsoft Schweiz GmbH

OTT Streaming-Dienste in Deutschland

für Dein Fundraising Livestreams - sozialmarketing.de · Glossar Als Live-Streaming, zu Deutsch Echtzeitübertragung, bezeichnet man ein Streaming-Media-Angebot (Video oder Audio),