71
Daten ohne Grenzen – Big Data Steffen Krause Technical Evangelist @AWS_Aktuell [email protected]

Daten ohne Grenzen – Big Data

Embed Size (px)

DESCRIPTION

Mein Vortrag von der Storage & Data Management Conference 2013

Citation preview

Page 1: Daten ohne Grenzen – Big Data

Daten ohne Grenzen – Big Data

Steffen KrauseTechnical Evangelist

@[email protected]

Page 2: Daten ohne Grenzen – Big Data

Ein Supercomputer in den Händen eines jeden Entwicklers

Page 3: Daten ohne Grenzen – Big Data

50000 CoreCycleCloud Super Computer

in der Amazon Cloud

Page 4: Daten ohne Grenzen – Big Data

Wie groß sind 50000 Cores?Warum ist das wichtig?

Page 5: Daten ohne Grenzen – Big Data

(W.H.O./Globocan 2008)

Neue Krebsfälle pro Jahr: 12,66 Millionen

Page 6: Daten ohne Grenzen – Big Data

Jeder Tag ist wichtig – und teuer

Page 7: Daten ohne Grenzen – Big Data

Ein führender Entwickler von algorithmischer Chemie

Page 8: Daten ohne Grenzen – Big Data

Medikamenten-Desgin: Identifikation der Protein-Ziele

Page 9: Daten ohne Grenzen – Big Data

„Das Schloss“

Page 10: Daten ohne Grenzen – Big Data

Finde Moleküle, die hineinpassen

Page 11: Daten ohne Grenzen – Big Data

Finde Treffer in Millionen Schlüsseln

Page 12: Daten ohne Grenzen – Big Data

Herausforderung: Virtuelle Tests mit höherer Genauigkeit und 21 Millionen Verbindungen

Page 13: Daten ohne Grenzen – Big Data

Using CycleCloud & Amazon Cloud

The impossible run finished in...

Metrik AnzahlRechen-Stunden 109927 Stunden

Rechen-Tage 4580 Tage

Rechen-Jahre 12,55 Jahre

Anzahl Liganden Ca. 21 Millionen Liganden

Page 14: Daten ohne Grenzen – Big Data

Using CycleCloud & Amazon Cloud

The impossible run finished in...

Mit CycleCloud & Amazon CloudDer unmögliche Rechenlauf dauerte...

Metrik AnzahlRechen-Stunden 109927 Stunden

Rechen-Tage 4580 Tage

Rechen-Jahre 12,55 Jahre

Anzahl Liganden Ca. 21 Millionen Liganden

Page 15: Daten ohne Grenzen – Big Data

3 Stundenfür 4828,85$/h

Page 16: Daten ohne Grenzen – Big Data
Page 17: Daten ohne Grenzen – Big Data

Statt einer >20 Millionen Infrastructure

Page 18: Daten ohne Grenzen – Big Data

Die Big Data Revolution

Page 19: Daten ohne Grenzen – Big Data

Was ist das?

Page 20: Daten ohne Grenzen – Big Data

Die Sammlung und Analyse von großen Datenmengen, um einen Wettbewerbsvorteil

zu erlangen

BIG-DATA

Page 21: Daten ohne Grenzen – Big Data

Medien/Werbung

Gezielte Werbung

Bild und Video Verarbeitung

Telco

Netz-optimierung

Traffic Analyse

Preis-optimierung

Retail

Empfehlungen

Transaktions-Analyse

Life Sciences

Genom Analyse

Finanz-Dienstl.

Monte Carlo Simulationen

Risiko-Analyse

Security

Antivirus

Betrugs-erkennung

Bild-erkennung

Soziales Netz/Spiele

User Demographics

Usage analysis

In-game metrics

Produk-tion

Maschinen-daten-Analyse

Ausfall-Vorhersage

Big Data Branchen

Page 22: Daten ohne Grenzen – Big Data

Die Revolution

Page 23: Daten ohne Grenzen – Big Data

Habe Daten

Page 24: Daten ohne Grenzen – Big Data

Kann speichern

Habe Daten

Page 25: Daten ohne Grenzen – Big Data

Kann speichern Kann analysieren

Habe Daten

Page 26: Daten ohne Grenzen – Big Data

kostengünstig

Page 27: Daten ohne Grenzen – Big Data

schnell

Page 28: Daten ohne Grenzen – Big Data

Wer ist Ihr Kunde wirklich?

Was mögen Kunden wirklich?

Was geschieht sozial mit Ihren Produkten?

Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?

Kunden

Page 29: Daten ohne Grenzen – Big Data

29

Page 30: Daten ohne Grenzen – Big Data
Page 31: Daten ohne Grenzen – Big Data

Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggt

Erkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive

Prozesse

Page 32: Daten ohne Grenzen – Big Data

ComputeStorage Big Data

100 GB 1,000 PB

Herausforderungen fangen bei relativ kleinen Datenmengen an

Big Data mit AWS

Page 33: Daten ohne Grenzen – Big Data

Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation,

Analyse und Weitergabe der Daten

ComputeStorage Big Data

Big Data mit AWS

Page 34: Daten ohne Grenzen – Big Data

DatenApp App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

Daten haben Schwerkraft

ComputeStorage Big Data

Page 35: Daten ohne Grenzen – Big Data

DatenApp App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

Latenz Durchsatz

…und in großen Mengen Trägheit…

ComputeStorage Big Data

Page 36: Daten ohne Grenzen – Big Data

Daten

App App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

…was es einfacher macht, die Anwendungen zu verschieben als die Daten

ComputeStorage Big Data

Page 37: Daten ohne Grenzen – Big Data

Warum jetzt?

Page 38: Daten ohne Grenzen – Big Data

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Page 39: Daten ohne Grenzen – Big Data

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Mobil verbundene Welt(Daten einfacher zu sammeln,

mehr Menschen generieren Daten)

Page 40: Daten ohne Grenzen – Big Data

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Mehr Aspekte der Daten(Vielfalt, Tiefe, Ort, Häufigkeit)

Page 41: Daten ohne Grenzen – Big Data

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Reichhaltigkeit erhalten(man muss nicht mitteln, aggregieren oder löschen)

Page 42: Daten ohne Grenzen – Big Data

Von einer Instanz…

ComputeStorage Big Data

Page 43: Daten ohne Grenzen – Big Data

…zu tausenden

ComputeStorage Big Data

Page 44: Daten ohne Grenzen – Big Data

…und zurück zu einer

ComputeStorage Big Data

Page 45: Daten ohne Grenzen – Big Data

1 Instanz für 100 Stunden=

100 Instanzen für 1 Stunde

Page 46: Daten ohne Grenzen – Big Data

Small Instance = $6

Page 47: Daten ohne Grenzen – Big Data
Page 48: Daten ohne Grenzen – Big Data

Aber was ist das?

Page 49: Daten ohne Grenzen – Big Data

Ein FrameworkTeilt Daten auf

Führt Berechnungen ausSammelt die Ergebnisse zusammen

Page 50: Daten ohne Grenzen – Big Data

Sehr großes Klick-Log

(TeraByte)

Page 51: Daten ohne Grenzen – Big Data

Sehr großes Klick-Log

(TeraByte)

Viele Aktivitäten von Hans Meier

Page 52: Daten ohne Grenzen – Big Data

Sehr großes Klick-Log

(TeraByte)

Viele Aktivitäten von Hans Meier

Splitte das Log in viele kleine Teile

Page 53: Daten ohne Grenzen – Big Data

Sehr großes Klick-Log

(TeraByte)

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Page 54: Daten ohne Grenzen – Big Data

Sehr großes Klick-Log

(TeraByte) Aggregiere die

Ergebnisse von allen Knoten

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Page 55: Daten ohne Grenzen – Big Data

Sehr großes Klick-Log

(TeraByte)

Was Hans Meier getan

hat

Aggregiere die

Ergebnisse von allen Knoten

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Page 56: Daten ohne Grenzen – Big Data

Sehr großes Klick-Log

(TeraByte) Erkenntnisse in einem Bruchteil der Zeit

Was Hans Meier getan

hat

Page 57: Daten ohne Grenzen – Big Data

1 Instanz für 100 Stunden=

100 Instanzen für 1 Stunde

Page 58: Daten ohne Grenzen – Big Data

Small Instance = $6

Page 59: Daten ohne Grenzen – Big Data

1 Instanz für 1000 Stunden=

1000 Instanzen für 1 Stunde

Page 60: Daten ohne Grenzen – Big Data

Small Instance = $60

Page 61: Daten ohne Grenzen – Big Data

Features, die Amazon Elastic MapReduce nutzen:

Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights

Automatische Ergänzung bei der EingabeRechtschreib-Vorschläge

Top SuchenWerbung

200 Elastic MapReduce Jobs pro Tagverarbeiten 3TB Daten

Page 62: Daten ohne Grenzen – Big Data
Page 63: Daten ohne Grenzen – Big Data
Page 64: Daten ohne Grenzen – Big Data
Page 65: Daten ohne Grenzen – Big Data
Page 66: Daten ohne Grenzen – Big Data

Alles, was eine beschränkte Ressource war

ist jetzt eine programmierbare Ressource

Page 67: Daten ohne Grenzen – Big Data

Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus, wenn Sie sie nicht brauchen

Page 68: Daten ohne Grenzen – Big Data

Die Cloud ermöglicht die Sammlung von Big Data

Page 69: Daten ohne Grenzen – Big Data

Die Cloud ermöglicht die Verarbeitung von Big Data

Page 70: Daten ohne Grenzen – Big Data

Die Cloud ermöglicht die Nutzung von Big Data

Page 71: Daten ohne Grenzen – Big Data

• Hadoop Technik und Cases: http://www.powerof60.com/ • http://aws.amazon.com/de • Beginnen Sie mit dem Free Tier:

http://aws.amazon.com/de/free/• 25 US$ Startguthaben für Neukunden:

http://aws.amazon.com/de/campaigns/account/• Twitter: @AWS_Aktuell• Facebook:

http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/

Ressourcen