Stream Processing Plattformen & die Qual der Wahl · And some mind breaking Bulletpoints 1 •...

Stream Processing Plattformen & die Qual der Wahl_

Matthias Niehoff

Die Basics

Warum Stream Processing?_

•Infinite and continuous data

Unendliche, kontinuierliche Daten_

•And some mind breaking Bulletpoints 1

•And some mind breaking Bulletpoints 2

•And some mind breaking Bulletpoints 3 • Or some great Sub-Bulletpoints 1 • Or some great Sub-Bulletpoints 2 • Or some great Sub-Bulletpoints 3

• And some mind breaking Bulletpoints 4 • And some mind breaking Bulletpoints 5

Geschwindigkeit & Real Time_

Erst Verarbeiten, dann speichern_

Persistenz

Persistenzstream processing

stream processing

•Unbegrenzter Datenstrom

•Kontinuierliche Verarbeitung, Aggregation und Analyse

•MapReduce ähnliches Verarbeitungsmodell

•In-Memory Verarbeitung

•Latenz im Bereich von Millisekunden oder Sekunden

•Skalieren durch Verteilen

•Häufig modelliert als DAG

Distributed Stream Processing_

• Eventzeit: • Zeitpunkt, an dem das Event aufgetreten ist

• Verarbeitungszeit: • Zeitpunkt, an dem das Event vom System beobachtet wurde

Eventzeit vs. Verarbeitungszeit_

Verarbeitung

1 2 3 4 5 6 7 8 9t in Minuten

•Differenz ist nicht nur != 0

•Differenz schwankt stark • Ressourcen bedingt (CPU, Netzwerk,..) • Software bedingt (verteilte Systeme..) • Daten bedingt (Schlüsselverteilung, Varianzen in Daten selbst)

• Analyse nach Verarbeitungszeit • einfacher aber ggfs. zu ungenau

• Analyse nach Eventzeit • komplexer, dafür genauer

Eventzeit vs. Verarbeitungszeit_

•Nicht triviale Anwendungen benötigen meist einen State • z.b. Aggregationen über einen längeren / unendlichen Zeitraum • (input, state) -> (output, state’) • gespeichert in Memory • interessant im Fehlerfall

State & Window Verarbeitung_

• Window als (zeitlich) begrenzter State • Tumbling Window • Sliding Window • Session Window

• Unterschiedliche Trigger • Zeit • Anzahl

Windowing & Sliding_

Tumbling Window_

Sliding Window_

Session Window_

User 1

User 2 Inaktivität

Inaktivität

•Mit Verarbeitungszeit einfach

•Mit Eventzeit schwerer • Vollständigkeit (out of order Events) • Buffering

• Strategien bei Eventzeit Windows • Watermarks • Trigger • Akkumulation

• Mehr Informationen • https://www.oreilly.com/ideas/the-world-beyond-batch-

streaming-101 • http://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf

Window Verarbeitung und Zeiten_

Die Kandidaten

•Gestartet 2010 durch BackType/Twitter, Apache seit 2013

•Pionier im Big Data / Stream Bereich

•Technologie der Lambda Architektur

•Low Level API

•Spouts und Bolts beschreiben eine Topologie

•Trident: High Level Erweiterung auf Storm Basis • Aggregationen • State & Window Operationen • Join, Merge, Group, --

Apache Storm_

•Open Source (2010) & Apache Projekt (2013)

•Einheitliche Batch & Stream Verarbeitung

•Breite Akzeptanz

•RDD als Basis

Apache Spark_

•Entwickelt bei LinkedIn, Open Source 2013

•Verfolgt den Log Ansatz von Kafka

•Ausgeführt auf YARN

•Geeignet für große States

•Erweiterbar über APIs

Apache Samza_

•Gestartet 2008 als europäisches Forschungsprojekt

•Low Latency Streaming und High Throughput Batch Processing

•Flexible States und Windows

•Streaming First Ansatz

Apache Flink_

Die Analyse

•Runtime

•Programming Model

•Skalierbarkeit

•Latenz

•Durchsatz

•Resilienz / Delivery Guarantees

•Reife

•Community

Aspekte von Streaming Anwendungen_

Runtime - Native Streaming_

Empfänger

Verarbeitung

geringe Latenz geringer Durchsatzflexibel Fehlertoleranz komplexer

Lastenverteilung komplexer

Runtime - Microbatching_

Empfänger

Verarbeitung

Microbatches

hoher Durchsatz höhere Latenzeinfacher Fehlertolerant weniger Flexibel (z.B. Windows)

State Verarbeitung komplexer

•Operatoren und Quellen als Komponenten

•Eigene Komponenten

•manuelle Topologie Definition

Programmiermodell_

Komponentenbasiert

•High Level API

•Higher Order Functions

•Abstrakte Datentypen

•Fortgeschrittene Operationen inkludiert

•Eingebaute Optimierungen

Deklarativ

Word Count - Flink_

valenv=StreamExecutionEnvironment.getExecutionEnvironmentvaltext=env.socketTextStream("localhost",9999)

valcounts=text.flatMap(_.toLowerCase.split("\\W+")).filter(_.nonEmpty).map(_,1).groupBy(0).sum(1)

counts.print

env.execute("ScalaSocketStreamWordCount")

Word Count - Spark_

valsparkConf=newSparkConf().setAppName("StreamingWordCount")valssc=newStreamingContext(sparkConf,Seconds(1))ssc.checkpoint(".")

valmappingFunc=(key:String,value:Option[Int],state:State[Int])=>{valsum=value.getOrElse(0)+state.getOption.getOrElse(0)valoutput=(key,sum)state.update(sum)output}

valwordCountState=StateSpec.function(mappingFunc)

Word Count - Spark_

vallines=ssc.socketTextStream(args(0),args(1).toInt)valwords=lines.flatMap(_.split(""))valwordsWithCount=words.map(x=>(x,1))valstateDstream=wordsWithCount.mapWithState(wordCountState)stateDstream.print()ssc.start()ssc.awaitTermination()

Word Count - Storm_

TopologyBuilderbuilder=newTopologyBuilder();

builder.setSpout("spout",newRandomSentenceSpout(),5);

builder.setBolt("split",newSplitSentence(),8).shuffleGrouping(„spout");

builder.setBolt("count",newWordCount(),12).fieldsGrouping("split",newFields("word"));

Word Count - Storm_

Configconf=newConfig();conf.setMaxTaskParallelism(3);

LocalClustercluster=newLocalCluster();cluster.submitTopology("word-count",conf,builder.createTopology());Thread.sleep(10000);cluster.shutdown();

Word Count - Storm_

publicstaticclassWordCountextendsBaseBasicBolt{Map<String,Integer>counts=newHashMap<String,Integer>();publicvoidexecute(Tupletuple,BasicOutputCollectorcollector){Stringword=tuple.getString(0);Integercount=counts.get(word);if(count==null)count=0;count++;counts.put(word,count);collector.emit(newValues(word,count));}publicvoiddeclareOutputFields(OutputFieldsDeclarerdeclarer){declarer.declare(newFields("word","count"));}}

Word Count - Storm Trident_

TridentTopologytopology=newTridentTopology();TridentStatewordCounts=topology.newStream("spout1",spout).each(newFields("sentence"),newSplit(),newFields("word")).groupBy(newFields("word")).persistentAggregate(newMemoryMapState.Factory(),newCount(),newFields("count")).parallelismHint(6);

Trident

Word Count - Storm Trident_

publicclassSplitextendsBaseFunction{publicvoidexecute(TridentTupletuple,TridentCollectorcollector){Stringsentence=tuple.getString(0);for(Stringword:sentence.split("")){collector.emit(newValues(word));}}}

Trident

Word Count - Samza_

classWordCountTaskextendsStreamTaskwithInitableTask{

privatevarstore:CountStore=_

definit(config:Config,context:TaskContext){this.store=context.getStore("wordcount-store").asInstanceOf[KeyValueStore[String,Integer]]}

Word Count - Samza_

overridedefprocess(envelope:IncomingMessageEnvelope,collector:MessageCollector,coordinator:TaskCoordinator){

valwords=envelope.getMessage.asInstanceOf[String].split("")

words.foreach{key=>valcount:Integer=Option(store.get(key)).getOrElse(0)store.put(key,count+1)collector.send(newOutgoingMessageEnvelope(newSystemStream("kafka","wordcount"),(key,count)))}}

•Maximal mögliche Garantien

•Beeinflussen Performance

•Nicht in jeder Kombination möglich (abhängig von Quelle)

Zustellungsgarantien_

Trident

At-least-once Exactly-once* Exactly-once* At-least-once Exactly-once*

•Abhängig von der Runtime

•Höhere Latenz --> höherer Durchsatz

Latenz & Durchsatz_

~50ms 500ms 30.000ms

Spark Streaming

Storm Trident

Custom

Latenz & Durchsatz_

https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at

Throughput

•Viele Variablen, Unparteiische Tests schwierig

•Latenz vs. Durchsatz

•Delivery Guarantees

•Fehlertoleranz

•Tuning

•Netzwerk, Daten Lokalität, Serialisierung

Performance_

•Skalieren durch Partitionierung • Partitionieren der Daten • Partitionieren des Flows

Skalierbarkeit_

•Erneute Verarbeitung nicht einfach möglich

•Anfang und Ende schwer zu bestimmen

•State muss auch gesichert werden

•Verschiedene Ansätze • Record Ack • Micro Batching • Transactional Updates • Snapshots

Fault Tolerance_

Fault Tolerance - Storm_

Ack Ack

AckAck

•Fehlgeschlagene Microbatches werden wiederholt

•Batch Acknowledge statt Record Acknowledge

• Checkpoints für States

Fault Tolerance - Spark & Storm Trident_

•Transaktionale Updates auf Transaction Log

•Kafka als Transaction Log

Fault Tolerance - Samza_

partition 0

partition 1

partition 2

Checkpoint partition 0: offset .. partition 1: offset .. partition 2: offset ..

SamzaKafka

•Distributed Checkpoints

Fault Tolerance - Flink_

•Native Eventzeitverarbeitung nur in Flink • Out-of-order Events • Watermarks • Trigger

• Eventzeit als Key in anderen Framework möglich • Keine out-of-order Events

Event- & Verarbeitungszeit_

finalStreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

Das Ergebnis

Überblick_

Trident

Runtime Nativ Microbatching Microbatching Nativ Nativ

Programmier-modell Komponentenbasiert Deklarativ Komponenten

basiert Deklarativ

Durchsatz Gering Mittel Hoch Hoch Hoch

Latenz Gering Mittel Mittel Gering Gering

Garantien At-least-once Exactly-once* Exactly-once* At-least-once Exactly-once*

Eventzeit Handling Nein Nein Nein Nein Ja

Reife & Community Hoch Hoch Hoch Mittel Mittel

•bereits Spark Batch Anwendungen vorhanden sind

•viele Umsysteme integriert werden

•eine große Community wichtig ist

•Scala kein Problem ist

•Latenz kein Kriterium ist

Spark wenn..._

•Sehr niedrige Latenz, niedriges Volumen

•At-Least Once Verarbeitung

•Zustandslose Verarbeitung

•Ggfs. Heron als Alternative

Storm für ..._

•Kafka ist omnipräsent

•Große States

•Kein Exactly Once

•Kafka Streams als Alternative

Samza wenn ..._

•Für Eventzeit Verarbeitung

•Für pures Streaming

•Sehr gute Konzepte

•Etwas weniger Umsysteme

•Nutzen und Mitarbeit an einem jungen Projekt

Und Flink ..._

•Apache Beam • High Level API für Streaming Runner

•Google Cloud Data Flow • Googles Cloud Streaming Framework; Beam Implementierung

•Apex • YARN based direct-streaming with checkpointing

•Flume • Logfile Streaming insb. in HDFS

•Kafka Streams • Streaming integriert in Kafka ab 0.10, einfache Anwendungen

• Heron • Storm Nachfolger, API kompatibel, verbesserter Throughput &

Latency

Ein Satz zu_

Questions?

Matthias Niehoff, IT-Consultant

codecentric AG Zeppelinstraße 2 76185 Karlsruhe, Germany

mobil: +49 (0) 172.1702676 matthias.niehoff@codecentric.de

www.codecentric.de blog.codecentric.de

matthiasniehoff

• Logfile: Linux Screenshots, Flickr

• Sensors, IT Network: Wikipedia

• Devices: Brad Forst, Flickr

• Speed: Rool Paap, Flickr

• Graph: Wikipedia

• Stateful Processing: data-artisans.com

• Window & Sliding Windows, Flink Übersicht, Flink Fault Tolerance: Apache Flink

• Storm Topologien: Apche Storm

• Spark Übersicht: Apache Spark

• Samza Übersicht: Apache Samza

• Unendliche Daten: https://i.ytimg.com/vi/9rE3kbGmP4w/maxresdefault.jpg

Picture Reference_

Stream Processing Plattformen & die Qual der Wahl · And some mind breaking Bulletpoints 1 •...

Documents

Bedienung Concept de 2014 02...5 Feuerungstechnik mind. 50 0 m m mind. 300 mm mind. 300 mm 1 2 mind. 80 0m m mind. 40 0m m mind. 50 mm mind. 20mm 1 2 2 2 3 2. Brandschutz 1 = Heizeinsatz,

Breaking the Taboo

Hans Some - sculptures

Media Mind Umwelt 2011

mind map tony buzan

Some Benchmark Problems in Electromagnetics · 2014-01-29 · Some Benchmark Problems in Electromagnetics Bakkalaureatsarbeit zurErlangungdesakademischenGrades Bakkalaureus der Technischen

Mind Upload Cheat Codes

Appendix Some details of Matrix.xla(m)

Some Infos on Macro-Photography

Strahlenfolter - Mind Control - Genozid

BREAKING NEWS - Totalsec

Info hypnotic mind

Map your mind or mind the map? · Web viewDort stießen wir prompt auf Das Mind Map Buch von Tony and Barry Buzan (1993), die Erfinder der so genannten Mind Map. Das Buch entpuppte

Some Typological Differences between the Modern Germanic

Bob Dylan zum 70. Geburtstag€¦ · Bob Dylan zum 70. Geburtstag »Mr Dylan, what are your songs about?« »Some are about ﬁ ve minutes, some are about six minutes, and some, believe

Some control considerations for ferromagnetic materials › trelat › GDT › confs › Stephane_Labbe.… · Some control considerations for ferromagnetic materials Stephane Labb´

SOME PROBLEMS ////////////// WITH LOVEpenandanvil.com/chapbooks/chapbook-some-problems-with... · 2020-04-28 · SOME PROBLEMS WITH LOVE ///// ADVERTISEMENT. With simple pieces, gears

Theory of Mind - Deutsch

Symmetry breaking and random waves for magnetic systems on ...people.math.umass.edu/~rsellis/pdf-files/circle-model.pdf · Symmetry Breaking and Random Waves for Magnetic Systems

Media Mind Automobiltechnolgie 2011