Big Data 10.000 ft - it-for-work.de · Big Data 10.000 ft DR. ROBERTO RAO, AXXESSIO GMBH • Big...

Preview:

Citation preview

20. Februar 2014

IHK Darmstadt

Big Data 10.000 ft

DR. ROBERTO RAO, AXXESSIO GMBH

• Big Data – Was ist das?

• Anwendungsfälle für Big Data

• Big Data Architektur

• Big Data Anbieter

• Was passiert in Zukunft mit Big Data?

Inhalte

2

Big Data – Was ist das?

4

Rohstoffe wie Gold sind nur in einer geringen Dichte vorhanden

2.700 Kg an Ressourcen müssen aufgewendet werden um einen Goldring herzustellen

300 Kg Erz+

20 Tonnen Giftstoffe (u.a. Cyanid)+…

5

Spaltbares Uran muss aufwendig getrennt werden

238U99,3 %

235U0,7 %

Natururan

1000 Kg Uranerz ergeben 1 Kg Uran

235U100 %

Gaszentrifugen

Spaltbares Material

Wertvolle Information

Text

Bilder

Dokumente

6

Big Data ist ähnlich zur Rohstoffgewinnung

Internet Seiten, Web-Foren, BlogsSocial Networks, eMails, Sensoren

Aus enorm vielen Daten sollen nur die wertvollen Informationen extrahiert werden. Aufwendige

Trennung von wertlosen und wertvollen Informationen• Volume (Datenvolumen)

• Variety (Vielfalt)• Velocity (Tempo)• Value (Wert)• Veracity (Datenqualität)• Volatility (Aufbewahrung)

7

Vielfältige Daten

Kunde

Name

Vorname

Kundennummer

Ort

Artikel

Bezeichnung

EAN

Preis

MwSt

KundenNr EAN Netto MwSt Brutto Datum

98273891 DE28309810 12,21 19% 24,05 19.04.13

83691817 DE94839928 81,77 19% 97,31 22.04.13

63879287 DE87687628 2,31 7% 2,47 29.04.13

Relationale DB

- Attribute- Tupel

SQL Query:

SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789

8

Mit Big Data hat die Goldgräberzeit auch in der IT begonnen

Hallo Stefan, wie geht es dir? Wir hatten gestern einen schönen Abend.

Das Fußballspiel morgen ist der Hammer! Das dürfen wir nicht verpassen.VG Micky

Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wär

Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.

Hallo Martha,Du musst 1 Kg Mehl und 3 Eier nehmen.Du rührst dann 10 Minuten und backst es.

Sehr geehrter Herr Mayer,Leider kann ich morgen nicht da sein, da ich einen wichtigen Termin habe.

Hi Gerd,Die Schule fällt morgen aus. Was wollen wir machen?

LOW DENSITY DATALOW VALUE

HIGH DENSITY DATAHIGH VALUE

Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.

Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wärTAXONOMIE

CLUSTERING

FILTER

RegierungabschaffenBombe

9

Erst große Plattenspeicher machen Big Data möglich

Anwendungsfälle für Big Data

11

Anwendungsfälle

Finanzdienstleister • Erkennung betrügerischer Transaktionen in Echtzeit, Risikoabschätzungen, beschleunigte Fallbearbeitung, individualisierte Dienstleistungen

Versicherungen • Beschleunigte Fallbearbeitung, bessere Risikoabschätzung, verhaltensbezogene Bepreisung

Telekommunikation • Qualitätssicherung, individualisierte Ansprache und Dienstleistungen, Betrugserkennung, neue Produkte

Produktion • Präventive Wartung und Überwachung, vernetzte Geräte, individualisierte Dienstleistungen, Marktüberwachung

Energie • Kurzfristige Bedarfsprognosen, vernetzte, individualisierte Geräte, vorausschauende Steuerung

Handel • Prognosen für die Absatzplanung, dynamische Preisbildung, Marktüberwachung und individualisierte Ansprache

Öffentliche Sicherheit

• Schnelle Lageerfassung und Früherkennung gefährlicher Ereignisse

Gesundheit • Vernetzte Geräte, präventive Steuerung, effizientes Fallmanagement, datengetriebene Entwicklung

Mobilität • Vernetzte Autos, Navigation, Stauhilfe

12

Beispiel: Kreditkartenmissbrauch

Visa hat ca. 2 Mrd. Kreditkarten

weltweit

Kreditkartenunternehmen erstellen ein Muster aus den

Zahlungsdaten

Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein

Missbrauch vor!

Durch Big Data hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt

Quelle: Bild der Wissenschaft, Ulrich Schmitz

13

Versicherungsbetrug

Quelle: Bild der Wissenschaft, Ulrich Schmitz

Aus Terabytes an personen- und raumbezogenen Daten kann Versicherungsbetrug aufgedeckt werden.

NetReveal von Detica setzt Personen zueinander in Beziehung und korreliert sie mit Ereignissen (z.B. Schadensmeldungen)

Identische Personen, Brüder, Neffen, Vettern hatten in der selben Region Schadenersatz nach einem Auffahrunfall geltend gemacht

� Fingierte Auffahrunfälle

Smart Meter für 40 Mio Haushalte ab 2020

Heute

Standard Last Profil (SLP)

• Eine Ablesung pro Jahr

• 40 Mio. Datensätze / Jahr

• 40 TB / Jahr

Künftig (mögliches Szenario)

Registrierende Leistungsmessung (RLM)

• Ein Datensatz pro 15 Min

• 1,5 Billionen Datensätze / Jahr

• 1,5 Exabytes / Jahr

14

Energiewirtschaft

Big Data Architektur

16

Traditionelle Architektur

System 1

System 3

System 2 DWH Analytics

Strukturierte Daten

Integration

17

Big Data Architektur

System 1

System 3

System 2Distributed File System DWH

Analytics

Strukturierte und unstrukturierte Daten

Map / Reduce

18

Hadoop Ökosystem

HDFS

MapReduceHBASE

PIG HIVE

MAHOUTmachine learning, Bibliothek von Algorithmen z.B. Clustering

Scripting von MapReduce jobs

HQL für MapReduce

Hadoop distributedfile system

Key-Value DB

* Es existieren weitere Komponenten des Hadoop Ökosystems, die hier nicht dargestellt sind (Oozi, Ambari, ZooKeeper, Hcatalog, Scoop, Flume, etc.)

Java framework

19

HDFS (hadoop distributed file system)

Data Node 1

Data Node 2

Data Node 3

Data Node N

Client Node

Name Node

File.txt1 TB

AA BB CC

A auf Node 1B auf Node 2C auf Node 3

AA BB CC

20

MapReduce

Verteilte Daten

Worker

Worker

Worker

Worker

Worker

MAP PHASE REDUCE PHASE

Zwischenergebnisse

Endergebnis

Worker

Worker

remotelocal

Aggregation

21

MapReduce am WordCount-Beispiel

Big Data Anbieter

23

Anbieter

IBM

Microsoft

HP

Oracle

EMC2

Exasol

Teradata

Was passiert in Zukunft mit Big Data?

25

Welche Chancen und Risiken ergeben sich in Zukunft

26

Chancen und Risiken in der Medizin

Neue Zusammenhänge erlauben neue Therapien

Wissen-schaftlicheVeröffent-lichungen

Klinische Studien

Kranken-akten

Errechnen von Risiko-Patienten

Wissen-schaftlicheVeröffent-lichungen

Klinische Studien

Kranken-akten

Chancen Risiken

Unsere Standorte

Niederlassung Köln

Wilhelmstraße 3

51143 Köln

Tel +49 22 03 – 91 22 0

Fax +49 22 03 – 91 22 23

Niederlassung Darmstadt

Kasinostraße 60

64293 Darmstadt

Tel +49 61 51 – 78 90 0

Fax +49 61 51 – 78 90 23 0

Hauptsitz Bonn

Kurfürstenallee 5

53177 Bonn

Tel +49 228 – 76 36 31 0

Fax +49 228 –76 36 31 3

Niederlassung Bern

Frohbergweg 7

3012 Bern

Tel +41 31 – 534 07 06

Fax +41 31 – 536 69 78

Vielen Dank für Ihre Aufmerksamkeit

Recommended