Daten ohne Grenzen – Big Data

Preview:

DESCRIPTION

Mein Vortrag von der Storage & Data Management Conference 2013

Citation preview

Daten ohne Grenzen – Big Data

Steffen KrauseTechnical Evangelist

@AWS_Aktuellskrause@amazon.de

Ein Supercomputer in den Händen eines jeden Entwicklers

50000 CoreCycleCloud Super Computer

in der Amazon Cloud

Wie groß sind 50000 Cores?Warum ist das wichtig?

(W.H.O./Globocan 2008)

Neue Krebsfälle pro Jahr: 12,66 Millionen

Jeder Tag ist wichtig – und teuer

Ein führender Entwickler von algorithmischer Chemie

Medikamenten-Desgin: Identifikation der Protein-Ziele

„Das Schloss“

Finde Moleküle, die hineinpassen

Finde Treffer in Millionen Schlüsseln

Herausforderung: Virtuelle Tests mit höherer Genauigkeit und 21 Millionen Verbindungen

Using CycleCloud & Amazon Cloud

The impossible run finished in...

Metrik AnzahlRechen-Stunden 109927 Stunden

Rechen-Tage 4580 Tage

Rechen-Jahre 12,55 Jahre

Anzahl Liganden Ca. 21 Millionen Liganden

Using CycleCloud & Amazon Cloud

The impossible run finished in...

Mit CycleCloud & Amazon CloudDer unmögliche Rechenlauf dauerte...

Metrik AnzahlRechen-Stunden 109927 Stunden

Rechen-Tage 4580 Tage

Rechen-Jahre 12,55 Jahre

Anzahl Liganden Ca. 21 Millionen Liganden

3 Stundenfür 4828,85$/h

Statt einer >20 Millionen Infrastructure

Die Big Data Revolution

Was ist das?

Die Sammlung und Analyse von großen Datenmengen, um einen Wettbewerbsvorteil

zu erlangen

BIG-DATA

Medien/Werbung

Gezielte Werbung

Bild und Video Verarbeitung

Telco

Netz-optimierung

Traffic Analyse

Preis-optimierung

Retail

Empfehlungen

Transaktions-Analyse

Life Sciences

Genom Analyse

Finanz-Dienstl.

Monte Carlo Simulationen

Risiko-Analyse

Security

Antivirus

Betrugs-erkennung

Bild-erkennung

Soziales Netz/Spiele

User Demographics

Usage analysis

In-game metrics

Produk-tion

Maschinen-daten-Analyse

Ausfall-Vorhersage

Big Data Branchen

Die Revolution

Habe Daten

Kann speichern

Habe Daten

Kann speichern Kann analysieren

Habe Daten

kostengünstig

schnell

Wer ist Ihr Kunde wirklich?

Was mögen Kunden wirklich?

Was geschieht sozial mit Ihren Produkten?

Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?

Kunden

29

Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggt

Erkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive

Prozesse

ComputeStorage Big Data

100 GB 1,000 PB

Herausforderungen fangen bei relativ kleinen Datenmengen an

Big Data mit AWS

Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation,

Analyse und Weitergabe der Daten

ComputeStorage Big Data

Big Data mit AWS

DatenApp App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

Daten haben Schwerkraft

ComputeStorage Big Data

DatenApp App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

Latenz Durchsatz

…und in großen Mengen Trägheit…

ComputeStorage Big Data

Daten

App App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

…was es einfacher macht, die Anwendungen zu verschieben als die Daten

ComputeStorage Big Data

Warum jetzt?

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Mobil verbundene Welt(Daten einfacher zu sammeln,

mehr Menschen generieren Daten)

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Mehr Aspekte der Daten(Vielfalt, Tiefe, Ort, Häufigkeit)

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Reichhaltigkeit erhalten(man muss nicht mitteln, aggregieren oder löschen)

Von einer Instanz…

ComputeStorage Big Data

…zu tausenden

ComputeStorage Big Data

…und zurück zu einer

ComputeStorage Big Data

1 Instanz für 100 Stunden=

100 Instanzen für 1 Stunde

Small Instance = $6

Aber was ist das?

Ein FrameworkTeilt Daten auf

Führt Berechnungen ausSammelt die Ergebnisse zusammen

Sehr großes Klick-Log

(TeraByte)

Sehr großes Klick-Log

(TeraByte)

Viele Aktivitäten von Hans Meier

Sehr großes Klick-Log

(TeraByte)

Viele Aktivitäten von Hans Meier

Splitte das Log in viele kleine Teile

Sehr großes Klick-Log

(TeraByte)

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Sehr großes Klick-Log

(TeraByte) Aggregiere die

Ergebnisse von allen Knoten

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Sehr großes Klick-Log

(TeraByte)

Was Hans Meier getan

hat

Aggregiere die

Ergebnisse von allen Knoten

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Sehr großes Klick-Log

(TeraByte) Erkenntnisse in einem Bruchteil der Zeit

Was Hans Meier getan

hat

1 Instanz für 100 Stunden=

100 Instanzen für 1 Stunde

Small Instance = $6

1 Instanz für 1000 Stunden=

1000 Instanzen für 1 Stunde

Small Instance = $60

Features, die Amazon Elastic MapReduce nutzen:

Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights

Automatische Ergänzung bei der EingabeRechtschreib-Vorschläge

Top SuchenWerbung

200 Elastic MapReduce Jobs pro Tagverarbeiten 3TB Daten

Alles, was eine beschränkte Ressource war

ist jetzt eine programmierbare Ressource

Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus, wenn Sie sie nicht brauchen

Die Cloud ermöglicht die Sammlung von Big Data

Die Cloud ermöglicht die Verarbeitung von Big Data

Die Cloud ermöglicht die Nutzung von Big Data

• Hadoop Technik und Cases: http://www.powerof60.com/ • http://aws.amazon.com/de • Beginnen Sie mit dem Free Tier:

http://aws.amazon.com/de/free/• 25 US$ Startguthaben für Neukunden:

http://aws.amazon.com/de/campaigns/account/• Twitter: @AWS_Aktuell• Facebook:

http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/

Ressourcen

Recommended