Upload
aws-germany
View
415
Download
2
Embed Size (px)
DESCRIPTION
Mein Vortrag von der Storage & Data Management Conference 2013
Citation preview
Daten ohne Grenzen – Big Data
Steffen KrauseTechnical Evangelist
Ein Supercomputer in den Händen eines jeden Entwicklers
50000 CoreCycleCloud Super Computer
in der Amazon Cloud
Wie groß sind 50000 Cores?Warum ist das wichtig?
(W.H.O./Globocan 2008)
Neue Krebsfälle pro Jahr: 12,66 Millionen
Jeder Tag ist wichtig – und teuer
Ein führender Entwickler von algorithmischer Chemie
Medikamenten-Desgin: Identifikation der Protein-Ziele
„Das Schloss“
Finde Moleküle, die hineinpassen
Finde Treffer in Millionen Schlüsseln
Herausforderung: Virtuelle Tests mit höherer Genauigkeit und 21 Millionen Verbindungen
Using CycleCloud & Amazon Cloud
The impossible run finished in...
Metrik AnzahlRechen-Stunden 109927 Stunden
Rechen-Tage 4580 Tage
Rechen-Jahre 12,55 Jahre
Anzahl Liganden Ca. 21 Millionen Liganden
Using CycleCloud & Amazon Cloud
The impossible run finished in...
Mit CycleCloud & Amazon CloudDer unmögliche Rechenlauf dauerte...
Metrik AnzahlRechen-Stunden 109927 Stunden
Rechen-Tage 4580 Tage
Rechen-Jahre 12,55 Jahre
Anzahl Liganden Ca. 21 Millionen Liganden
3 Stundenfür 4828,85$/h
Statt einer >20 Millionen Infrastructure
Die Big Data Revolution
Was ist das?
Die Sammlung und Analyse von großen Datenmengen, um einen Wettbewerbsvorteil
zu erlangen
BIG-DATA
Medien/Werbung
Gezielte Werbung
Bild und Video Verarbeitung
Telco
Netz-optimierung
Traffic Analyse
Preis-optimierung
Retail
Empfehlungen
Transaktions-Analyse
Life Sciences
Genom Analyse
Finanz-Dienstl.
Monte Carlo Simulationen
Risiko-Analyse
Security
Antivirus
Betrugs-erkennung
Bild-erkennung
Soziales Netz/Spiele
User Demographics
Usage analysis
In-game metrics
Produk-tion
Maschinen-daten-Analyse
Ausfall-Vorhersage
Big Data Branchen
Die Revolution
Habe Daten
Kann speichern
Habe Daten
Kann speichern Kann analysieren
Habe Daten
kostengünstig
schnell
Wer ist Ihr Kunde wirklich?
Was mögen Kunden wirklich?
Was geschieht sozial mit Ihren Produkten?
Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?
Kunden
29
Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggt
Erkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive
Prozesse
ComputeStorage Big Data
100 GB 1,000 PB
Herausforderungen fangen bei relativ kleinen Datenmengen an
Big Data mit AWS
Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation,
Analyse und Weitergabe der Daten
ComputeStorage Big Data
Big Data mit AWS
DatenApp App
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Daten haben Schwerkraft
ComputeStorage Big Data
DatenApp App
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Latenz Durchsatz
…und in großen Mengen Trägheit…
ComputeStorage Big Data
Daten
App App
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
…was es einfacher macht, die Anwendungen zu verschieben als die Daten
ComputeStorage Big Data
Warum jetzt?
HPC ComputingGroße Algorithmen & Modelle
Websites Blogs/Reviews/Emails/Bilder
Soziale GraphenFacebook, Linked In, Kontakte
Application Server Logs Websites, Spiele...
Datensammlung und -auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten Wetter, Wasser, Smart Grids
Bilder/VideosVerkehr, Überwachungskameras
Twitter 50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
HPC ComputingGroße Algorithmen & Modelle
Websites Blogs/Reviews/Emails/Bilder
Soziale GraphenFacebook, Linked In, Kontakte
Application Server Logs Websites, Spiele...
Datensammlung und -auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten Wetter, Wasser, Smart Grids
Bilder/VideosVerkehr, Überwachungskameras
Twitter 50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Mobil verbundene Welt(Daten einfacher zu sammeln,
mehr Menschen generieren Daten)
HPC ComputingGroße Algorithmen & Modelle
Websites Blogs/Reviews/Emails/Bilder
Soziale GraphenFacebook, Linked In, Kontakte
Application Server Logs Websites, Spiele...
Datensammlung und -auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten Wetter, Wasser, Smart Grids
Bilder/VideosVerkehr, Überwachungskameras
Twitter 50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Mehr Aspekte der Daten(Vielfalt, Tiefe, Ort, Häufigkeit)
HPC ComputingGroße Algorithmen & Modelle
Websites Blogs/Reviews/Emails/Bilder
Soziale GraphenFacebook, Linked In, Kontakte
Application Server Logs Websites, Spiele...
Datensammlung und -auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten Wetter, Wasser, Smart Grids
Bilder/VideosVerkehr, Überwachungskameras
Twitter 50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Reichhaltigkeit erhalten(man muss nicht mitteln, aggregieren oder löschen)
Von einer Instanz…
ComputeStorage Big Data
…zu tausenden
ComputeStorage Big Data
…und zurück zu einer
ComputeStorage Big Data
1 Instanz für 100 Stunden=
100 Instanzen für 1 Stunde
Small Instance = $6
Aber was ist das?
Ein FrameworkTeilt Daten auf
Führt Berechnungen ausSammelt die Ergebnisse zusammen
Sehr großes Klick-Log
(TeraByte)
Sehr großes Klick-Log
(TeraByte)
Viele Aktivitäten von Hans Meier
Sehr großes Klick-Log
(TeraByte)
Viele Aktivitäten von Hans Meier
Splitte das Log in viele kleine Teile
Sehr großes Klick-Log
(TeraByte)
Verarbeitung in einem EMR ClusterViele Aktivitäten von
Hans Meier
Splitte das Log in viele kleine Teile
Sehr großes Klick-Log
(TeraByte) Aggregiere die
Ergebnisse von allen Knoten
Verarbeitung in einem EMR ClusterViele Aktivitäten von
Hans Meier
Splitte das Log in viele kleine Teile
Sehr großes Klick-Log
(TeraByte)
Was Hans Meier getan
hat
Aggregiere die
Ergebnisse von allen Knoten
Verarbeitung in einem EMR ClusterViele Aktivitäten von
Hans Meier
Splitte das Log in viele kleine Teile
Sehr großes Klick-Log
(TeraByte) Erkenntnisse in einem Bruchteil der Zeit
Was Hans Meier getan
hat
1 Instanz für 100 Stunden=
100 Instanzen für 1 Stunde
Small Instance = $6
1 Instanz für 1000 Stunden=
1000 Instanzen für 1 Stunde
Small Instance = $60
Features, die Amazon Elastic MapReduce nutzen:
Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights
Automatische Ergänzung bei der EingabeRechtschreib-Vorschläge
Top SuchenWerbung
200 Elastic MapReduce Jobs pro Tagverarbeiten 3TB Daten
Alles, was eine beschränkte Ressource war
ist jetzt eine programmierbare Ressource
Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus, wenn Sie sie nicht brauchen
Die Cloud ermöglicht die Sammlung von Big Data
Die Cloud ermöglicht die Verarbeitung von Big Data
Die Cloud ermöglicht die Nutzung von Big Data
• Hadoop Technik und Cases: http://www.powerof60.com/ • http://aws.amazon.com/de • Beginnen Sie mit dem Free Tier:
http://aws.amazon.com/de/free/• 25 US$ Startguthaben für Neukunden:
http://aws.amazon.com/de/campaigns/account/• Twitter: @AWS_Aktuell• Facebook:
http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/
Ressourcen