5
HAUPTBEITRAG / BIG DATA IN FORSCHUNG UND LEHRE AM HPI } Big Data in Forschung und Lehre am HPI Christoph Meinel Präliminarien IT-Technologien verändern sich rasch und Paradig- menwechsel werden nicht in Jahrzehnten, sondern in Monaten und Jahren gemessen. Die aktuellen Herausforderungen im Bereich der Informations- und Kommunikationstechnologien sind inspiriert von Entwicklungen, die mit den Begriffen Big Data, Cloud-Computing , Multi-Core-Computing und In- Memory-Computing beschrieben werden. Big Data ist dabei zum alles verknüpfenden Schlagwort ge- worden: Überall werden die unterschiedlichsten Daten erfasst – überall können diese Daten zu neuen Informationen verknüpft werden – und überall ha- ben diese Daten und ihre Verknüpfung auch nur eine relativ kurze Halbwertszeit, werden wieder von in noch größerem Umfang und Detail neu erfassten Daten ersetzt, ergänzt und verändert. Im folgenden Beitrag werden zunächst die Herausforderungen beschrieben, vor denen die In- formatik steht, wenn es um die Bearbeitung und Auswertung von Big Data geht. Dann werden die ak- tuellen technischen Entwicklungen skizziert – Cloud Computing, Multicore-Architekturen, In-Memory Technologie und Hauptspeicherdatenbanken –, die die Auswertung und Verknüpfung von Big Data in Echtzeit realisierbar erscheinen lassen. Schließ- lich wird anhand laufender Forschungsprojekte in den Bereichen personalisierte Medizin, Analyse sozialer Medien und Cyber-Security Analytics vor- gestellt, wie wir uns am Hasso-Plattner-Institut (HPI) mit dem Thema Big Data in Forschung und Lehre auseinandersetzen. Big Data Big Data sind heterogen, können, aber müssen nicht strukturiert sein. In ihrem Umfang werden sie nach Tera-, Peta- oder gar Exabyte gemessen (liegt alles eh außerhalb unseres Vorstellungsbereiches), also Aus- maße, die noch vor wenigen Jahren als unmöglich zu handhaben angesehen worden wären. Quellen für diese Daten im privaten Bereich sind E-Mails, Tweets und Posts, Einkaufslisten beim Internethänd- ler, Buchungen von Urlaubsreisen, Kontodaten oder medizinische Daten beim Krankenhausbesuch. Al- lein dazu fallen ,,nebenher“ Daten an, wie Log-Files, RFID-Codes, Kamera- oder Mikrofonaufnahmen, Steuer- und Regelungsdaten, Finanztransaktionen, Börsendaten, Wetterberichte, Energieverbräuche, Gen-Daten oder Krankenverläufe. Jedes digital er- fasste Geschehen erzeugt Datenspuren, die ihren gehörigen Teil zu Big Data beitragen. Big Data zeichnet grob drei Besonderheiten aus, die drei großen ,,V“: Velocity, Variety und Volume. Volume erschließt sich am einfachsten: Big Data sind Massendaten ungekannten Ausmaßes. Variety bedeutet, dass diese Daten unsortiert, aus vielen Quellen gewonnen und äußerst heterogen sind – in Bezug auf ihre Herkunft, Bedeutung und Verlässlichkeit, und dass die Erfassung dieser Daten zunächst nicht darauf angelegt war, aus ihnen Infor- mationen und Sinnzusammenhänge zu gewinnen, die über den eigentlichen Anlass ihrer Erfassung und Aussage hinausgehen. Velocity schließlich bedeutet, dass diese Daten nicht nur existieren, sondern dass sie als digitale Da- ten auch höchst mobil und volatil sind. Sie können sehr schnell bewegt werden, da ihre Produzenten DOI 10.1007/s00287-014-0773-9 © Springer-Verlag Berlin Heidelberg 2014 Christoph Meinel Hasso-Plattner-Institut Potsdam, Potsdam E-Mail: [email protected]

Big Data in Forschung und Lehre am HPI

Embed Size (px)

Citation preview

HAUPTBEITRAG / BIG DATA IN FORSCHUNG UND LEHRE AM HPI }

Big Data in Forschungund Lehre am HPI

Christoph Meinel

PräliminarienIT-Technologien verändern sich rasch und Paradig-menwechsel werden nicht in Jahrzehnten, sondernin Monaten und Jahren gemessen. Die aktuellenHerausforderungen im Bereich der Informations-und Kommunikationstechnologien sind inspiriertvon Entwicklungen, die mit den Begriffen Big Data,Cloud-Computing, Multi-Core-Computing und In-Memory-Computing beschrieben werden. Big Dataist dabei zum alles verknüpfenden Schlagwort ge-worden: Überall werden die unterschiedlichstenDaten erfasst – überall können diese Daten zu neuenInformationen verknüpft werden – und überall ha-ben diese Daten und ihre Verknüpfung auch nureine relativ kurze Halbwertszeit, werden wieder vonin noch größerem Umfang und Detail neu erfasstenDaten ersetzt, ergänzt und verändert.

Im folgenden Beitrag werden zunächst dieHerausforderungen beschrieben, vor denen die In-formatik steht, wenn es um die Bearbeitung undAuswertung von Big Data geht. Dann werden die ak-tuellen technischen Entwicklungen skizziert – CloudComputing, Multicore-Architekturen, In-MemoryTechnologie und Hauptspeicherdatenbanken –, diedie Auswertung und Verknüpfung von Big Data inEchtzeit realisierbar erscheinen lassen. Schließ-lich wird anhand laufender Forschungsprojektein den Bereichen personalisierte Medizin, Analysesozialer Medien und Cyber-Security Analytics vor-gestellt, wie wir uns am Hasso-Plattner-Institut(HPI) mit dem Thema Big Data in Forschung undLehre auseinandersetzen.

Big DataBig Data sind heterogen, können, aber müssen nichtstrukturiert sein. In ihrem Umfang werden sie nach

Tera-, Peta- oder gar Exabyte gemessen (liegt alles ehaußerhalb unseres Vorstellungsbereiches), also Aus-maße, die noch vor wenigen Jahren als unmöglichzu handhaben angesehen worden wären. Quellenfür diese Daten im privaten Bereich sind E-Mails,Tweets und Posts, Einkaufslisten beim Internethänd-ler, Buchungen von Urlaubsreisen, Kontodaten odermedizinische Daten beim Krankenhausbesuch. Al-lein dazu fallen ,,nebenher“ Daten an, wie Log-Files,RFID-Codes, Kamera- oder Mikrofonaufnahmen,Steuer- und Regelungsdaten, Finanztransaktionen,Börsendaten, Wetterberichte, Energieverbräuche,Gen-Daten oder Krankenverläufe. Jedes digital er-fasste Geschehen erzeugt Datenspuren, die ihrengehörigen Teil zu Big Data beitragen.

Big Data zeichnet grob drei Besonderheiten aus,die drei großen ,,V“: Velocity, Variety und Volume.

Volume erschließt sich am einfachsten: Big Datasind Massendaten ungekannten Ausmaßes.

Variety bedeutet, dass diese Daten unsortiert,aus vielen Quellen gewonnen und äußerst heterogensind – in Bezug auf ihre Herkunft, Bedeutung undVerlässlichkeit, und dass die Erfassung dieser Datenzunächst nicht darauf angelegt war, aus ihnen Infor-mationen und Sinnzusammenhänge zu gewinnen,die über den eigentlichen Anlass ihrer Erfassungund Aussage hinausgehen.

Velocity schließlich bedeutet, dass diese Datennicht nur existieren, sondern dass sie als digitale Da-ten auch höchst mobil und volatil sind. Sie könnensehr schnell bewegt werden, da ihre Produzenten

DOI 10.1007/s00287-014-0773-9© Springer-Verlag Berlin Heidelberg 2014

Christoph MeinelHasso-Plattner-Institut Potsdam, PotsdamE-Mail: [email protected]

{ BIG DATA IN FORSCHUNG UND LEHRE AM HPI

oder Produktionsorte mit dem Internet verbundensind, wodurch die Auswertung dezentral erfolgenund die Mehrwertgenerierung dort stattfindenkann, wo sie gewünscht oder kostengünstig erzeugtwerden kann.

Herausforderungen bei der Verarbeitungvon Big Data

Früher noch völlig unvorstellbar, wird es heutedank der rasanten Weiterentwicklungen in der Re-chentechnik – Cloud Computing, Multicore, HighMemory – möglich, diese Big Data aus ganz un-terschiedlichen Quellen zusammenzuführen undzu verarbeiten. Dabei wirft die ursächlich nichtgeplante Zusammenführung so unterschiedlicherDatenmengen eine Reihe von sehr tiefgreifendenProblemen auf:

– zum einen in Bezug auf die Daten selbst:– Wie ist die Datenqualität, also welche Präzision,

welche Haltbarkeit, welche Objektivität habendiese Daten?

– Wie ist mit der zeitlichen, räumlichen undrechtlichen Heterogenität der Daten umzugehen?

– Wie steht es um den Schutz der Daten in Bezugauf die verschiedenen Aspekte von Security undSafety?

– zum zweiten in Bezug auf die verschiedenenAspekte möglicher Datenverknüpfungen, ihreDarstellung, Visualisierung und Interpretation:

– Sind gleichzeitige oder gleichwertige ErgebnisseKausalität oder Korrelation?

– Wie sieht es mit der Qualität bzw. dem Schutzmöglicher Datenverknüpfungen aus?

– Gibt es Geschäftsmodelle für Analysen ausBig Data und sind diese rechtlich oder ethischzulässig?

– zum dritten schließlich in Bezug auf die für denEinzelnen drängenden Fragen nach Datenschutzund Privacy:

– Wie wird sichergestellt, dass staatliche und/oderprivatwirtschaftliche Kreise Aussagen überPersonen oder Institutionen nicht zum Profi-ling nutzen, ohne Kenntnis/Zustimmung derBetroffenen?

Durch die Verknüpfung von ,,stupid“ Big Datazu ,,smart“ Big Data ergeben sich ungeahnte er-

wünschte bzw. unerwünschte Möglichkeiten z. B. fürpersonalisierte Werbung, zum Ausspähen privates-ter Lebensumstände, für unberechtigte Einblicke inGesundheitsdaten, aber auch für Industriespionageund Einsicht in Finanzverhältnisse. Das akribischaufgezeichnete ,,Was“ und ,,Wann“ lässt sehr tiefeEinblicke in das ,,Warum“ und ,,Wozu“ zu.

Technische Entwicklungen, die dieVerarbeitung von Big Data ermöglichen

Tatsächlich gibt es sowohl im Bereich der Hardwareals auch der Software aktuell Entwicklungen, diedie Verarbeitung von Big Data teilweise sogar inRealzeit möglich machen. Im Rahmen verschiede-ner Studien-, Promotions- und Forschungsprojektebefassen wir uns am HPI in Forschung und Lehremit diesen Entwicklungen und versuchen, die ihneninnewohnenden Potenziale zu erschließen.

Dank ausgefeilter Virtualisierungstechnikenund schneller Internetzugänge konnte sich die Ideedes Cloud Computing etablieren, also die Bereitstel-lung von praktisch unbegrenzter Rechenleistungund Speicherplatz im Internet (genauer in allseitsnutzbaren, professionell gewarteten Rechenzen-tren). Die Anwendungen des Nutzers sind nichtmehr fest auf seinem Rechner installiert, sondernlaufen auf einer virtuellen Maschine, also auf ei-nem Softwareprogramm, das sich genauso wie einphysikalischer Rechner verhält, aber sehr beweglichauf jedem gerade zur Verfügung stehenden Rechnerausgeführt werden kann. Die virtuellen Maschinenihrerseits können schnell eingerichtet und bereitge-stellt, einfach geklont und migriert werden. Durchdie zentrale Bereitstellung und Wartung von phy-sikalischen Wirtsrechnern stehen den virtuellenMaschinen passende Rechen- und Speicherressour-cen quasi unbegrenzt zur Verfügung; bezahlt werdenmüssen aber wie bei einer Telefonrechnung nur dietatsächlich genutzten Ressourcen.

Allerdings gibt es auch hier Fragen nach derSicherheit der in der Cloud verarbeiteten Anwen-dungen und Daten:

– Wie vertraulich können die in der Cloud zubearbeitenden Daten behandelt werden?

– Wie ist die Anlieferung und Auslieferung der Datenund Ergebnisse von der Cloud über das Internetgesichert?

– Wie steht es um die Verfügbarkeit der Daten undVerarbeitungsergebnisse?

– Wie ist die Rechtslage, besonders bei grenzüber-schreitender Datenverarbeitung?

Betrachtet man die physikalischen Rechnersystemeselbst, die in der Cloud oder in eigenen Umge-bungen für die (schnelle) Verarbeitung von BigData gebraucht werden, dann ist auf zwei aktu-elle Entwicklungslinien im Bereich der Hardwarehinzuweisen, nämlich auf den in immer größe-rem Umfang zur Verfügung stehenden schnellenHauptspeicher und auf Multicore-Architekturen mitihrer immer größeren Zahl von Prozessoren undProzessorkernen. Auf der ersten Entwicklungs-linie basiert die In-Memory Technologie, die zunicht unwesentlichen Teilen am HPI mitentwickeltwurde; die zweite macht Parallelisierung möglichbei immer überschaubareren Preisen. So stehendank eines Sponsorings von EMC, Fujitsu, HPIund SAP im HPI Future SOC Lab (http://www.hpi.uni-potsdam.de/forschung/future_soc_lab.html)z. B. Rechner mit einem Hauptspeicher von 6 GBoder 1000 Kernen für die akademische Forschungbereit. Die In-Memory Technologie erlaubt es, großeDatenmenge bei der Verarbeitung zentral im Haupt-speicher – ganz nahe an der CPU – vorzuhalten, undnicht mehr durch den langwierigen und zeitaufwen-digen Transport der Daten zwischen Massenspeicherund Hauptspeicher bei deren Verarbeitung gebremstzu werden. Massive Geschwindigkeitsvorteile umeinen Faktor 1000 oder mehr können so erzieltwerden.

Dank des Einsatzes von Hauptspeicherdaten-banken – die erste kommerziell verfügbare Haupt-speicherdatenbank, SAP HANA, wurde initiiertdurch die Forschungsarbeiten am Lehrstuhl vonHasso Plattner am HPI und von SAP unter derLeitung ihres CTOs Vishal Sikka entwickelt underfolgreich auf den Markt gebracht – konnten inganz verschiedenen Bereichen wichtige Innova-tionsimpulse bei der Verarbeitung, Auswertung,Anreicherung und Verknüpfung von Big Data gesetztwerden.

Potenziale von Big Data –Anwendungsbeispiele

Als Forschungsinstitut, das in Zusammenarbeit mitSAP wesentliche Beiträge zur Erschließung der In-Memory Technologie geleistet hat, sind wir natürlichsehr interessiert, in Forschung und Lehre in ganzunterschiedlichen Bereichen – z. B. in der persona-

lisierten Medizin, bei der Analyse sozialer Medienoder der Echtzeitauswertung von Sicherheitsda-ten – mit dieser neuen Technologie zu spielen, dieGrenzen des Machbaren deutlich zu verschiebenund zu zeigen, dass sich Big Data auch in Realzeitverarbeiten lassen.

Anwendungsbeispiel:Personalisierte Medizin

In der Medizin besteht der Wunsch, zur Behandlungz. B. von Krebserkrankungen, Informationen auchaus dem Genom des Erkrankten heranzuziehen.Heutzutage sind solche Genom-Analysen, aus denensich ggf. ablesen lässt, welche genetischen Verän-derungen die Ursache für die Krebserkrankungbzw. für die Un-/Verträglichkeit bestimmter Thera-pien sind, äußert rechenintensiv und zeitaufwendig.Dieser Analyseaufwand umfasst nicht nur die Labor-untersuchungen und Sequenzierung des Erbguts,sondern beinhaltet auch die hochkomplexe Su-che nach Verbindungen zwischen den spezifischenVeränderungen im Erbgut des Patienten und denMyriaden von Möglichkeiten an Querverbindungenzu Krankheitsverläufen ähnlich gearteter Fälle, kli-nischen Studien und neuesten wissenschaftlichenPublikationen. Bei der (mehrfachen) Sequenzie-rung des menschlichen Erbguts – bestehend aus ca.3,2 Milliarden Basenpaaren – entstehen heute etwa300–500 GB diagnostische Rohdaten. Die Analysedieser Daten gegen ca. 80 Millionen bisher bekannte(menschliche) Mutationen, bei ca. 20.000–25.000verschiedenen bekannten Genen und ca. 50.000–300.000 Proteinen, lässt dabei weitere Datenmengenim GB-Bereich entstehen. Die Verarbeitung undAuswertung dieser Rohdaten beansprucht heutemehrere Wochen, ja Monate.

In verschiedenen Projekten in Forschungund Lehre am HPI und in Kooperation mit me-dizinischen Partnern wie der Berliner Charité,dem Deutschen Krebsforschungszentrum in Hei-delberg und der Medical School der StanfordUniversität werden verschiedene Analyseverfah-ren untersucht, entwickelt und getestet. DankIn-Memory-Datenbanktechnologie auf ,,echten“Multicore-Architekturen (1000 Kerne) wird eserstmals möglich, diese Daten quasi in Echtzeitzu verarbeiten, blitzschnelle flexible Analysendurchzuführen und die aufbereiteten Genomdatenanschließend mit neusten Forschungserkenntnis-sen zu verknüpfen – z. B. durch eine gezielte Suche

{ BIG DATA IN FORSCHUNG UND LEHRE AM HPI

in allen (elektronisch verfügbaren) medizinischenVeröffentlichungen in Springer-Journalen. Statt zeit-aufwendige Recherchen von Einzelinformationenaus vielen verschiedenen Quellen durchführen zumüssen, werden Mediziner und Forscher in Kürzedurch eine Web-Plattform des HPI zentralen Zu-griff auf aktuellste Ergebnisse bekommen. Dassalle diese Daten zentral vorgehalten werden kön-nen, ist durch die riesige Hauptspeicherkapazitätder Hochleistungsrechner im HPI Future SOC Labmöglich.

Anwendungsbeispiel:Social Media Analysis

Der Umfang von Social Media Daten im Internet istunermesslich. In einer Internet-Minute entstehenweltweit etwa 100.000 Tweets, 300.000 Facebook-Updates und 80.000 Blog-Posts. Durch die immenseBeteiligung und stetige Kommunikation entwickeltsich eine sich ständig verändernde und exponenti-ell wachsende Masse an unstrukturierten Daten imTerabyte-Bereich. Um eine inhaltsbezogene Auswer-tung dieser Datenmassen zu ermöglichen, müssendiese in High-End Datenbanken gesammelt wer-den, um dann Analysen wie ,,Opinion Detection“oder ,,Trend-Analysen“ durchführen oder intelli-gente Suchfunktionen anwenden zu können. Auchnetzwerkbezogene Analysen zum ,,InformationSpreading“, zur Identifikation von thematischenGruppen und Rankings haben nur richtig Sinn,wenn die Analysen und Interpretationen in Echtzeitmöglich sind, denn nur so können aktuelle Ereig-nisse und Entwicklungen erkannt und sofort auf siereagiert werden.

Im HPI befassen sich verschiedene Big Data Pro-jekte in Forschung und Lehre mit solchen Analysensozialer Medien, z. B. im Kontext der prototypi-schen Entwicklung einer In-Memory-basiertenSuchmaschine (http://blog-intelligence.com/) fürBlogs. Neben dem Sammeln aller Bloginformatio-nen im Internet – das sind strukturierte Daten alsauch Freitext – und der Indexierung dieser Daten,geht es um die Durchführung ganz unterschiedli-cher Analysen: Trendberechnungen, Herstellungsemantischer Bezüge, Ermittlung Nutzer-definierterRankings, Reputationsbewertung, usw. Dank In-Memory Technologie und SAP HANA könnendie verschiedenen Daten in Echtzeit miteinan-der in Beziehung gesetzt und analysiert werden,Daten z. B. aus Nachrichtenportalen, Twitter, Start-

seiten von Blogs, Kommentaren, Posts, Ratings,Votings, Trackbacks, Blogrollen, Interaktionenmit anderen Blogs, gegenseitigen Verlinkungen,Verlinkungsrichtungen, verschiedensten Nut-zeraktivitäten, Nutzerevaluierungen, Blog-Alter,Aktivitätsfrequenz, usw.

Anwendungsbeispiel:Cyber-Security Analytics – Real-TimeMonitoring of Security Events

Cybercrime ist ein immer größer werdenderKriminalitätszweig. Die vielfältig gearteten Cy-berangriffe – nach Schätzungen renommierterIT-Sicherheitsfirmen kamen bereits 450 MillionenMenschen (NSA-Aktivitäten nicht mitgerechnet) mitCybercrime-Attacken in Berührung, 230 MillionenIdentitäten wurden gestohlen, 86 Prozent aller Mailsweltweit sind Spam –, die meist einer dezidiertenkriminellen Handlung vorausgehen bzw. selbst kri-minelle Handlungen darstellen, werden einerseitsdurch Schwachstellen in der verwendeten Hard-und Software ermöglicht, andererseits werden ge-zielt Schwachstellen geschaffen und dann wiederumausgenutzt.

IT-Sicherheitssysteme, wie z. B. Firewalls kön-nen Attacken blocken, allerdings nur, wenn sie inder Lage sind, Aktivitäten aus dem Netz in Echtzeitals Teil eines Angriffes zu erkennen. Dazu müssenkontinuierlich massenweise Daten von verschiede-nen Sicherheitssensoren, gespeichert in Log-Files(OS/Apps), Scanning Reports, Virus-Warnungen,IDS-Alerts überwacht und ausgewertet werden. Dieschiere Menge dieser zu analysierenden, aggregie-renden und korrelierenden Daten überfordert dieheute zur Verfügung stehenden Analyse-Tools und-Systeme, geeignete Schutzreaktionen sind deshalbin Echtzeit nicht oder nur sehr ungenau möglich.Nur eine kontinuierliche Live-Analyse in Echtzeitkann dafür sorgen, dass Angriffe im Augenblickihrer Ausführung erkannt und verhindert werdenkönnen.

Zum Verständnis des Datenvolumens sei an-gemerkt, dass jedes Security-Item etwa 152 BytesSpeicherplatz benötigt und nach unseren Messun-gen bei einem Host, der Internetdienste bereitstellt,in sechs Monaten ca. 1.391.520 Security-Items an-fallen. Ein Hauptspeicher-Server mit In-MemoryDatenbank und lediglich zwei Terabyte RAM kannsomit die in 5.298,26 Jahren bei einem Host anfallen-den Security-Events verarbeiten und auswerten oder

die von 1.000 herkömmlichen Hosts mit 5,25 JahrenEventerfassung.

Im Rahmen verschiedener Forschungs- undAusbildungsprojekte wird am HPI in Koopera-tion mit zwei Großkonzernen ein Prototyp fürein ,,Real-Time Event Analytics and Monito-ring System“ konzipiert und entwickelt, das aufBasis der Hauptspeicherdatenbank SAP HANANetzwerk- und Programmlogs in Echtzeit über-wacht und analysiert. Verteilte IDS-Sensorenund Logging-Systeme registrieren sicherheits-kritische Ereignisse, die dann auf der Basisdurchgespielter, vermittels von Attack-Grafen mo-dellierter Angriffsszenarien korreliert werden.

Dazu werden die Log-Daten normalisiert undin indexierten Tabellen zentralisiert abgespei-chert. Bei der Analyse werden die Daten dannin Echtzeit korreliert und visualisiert, wobei dieeinzelnen Security-Events im Hinblick auf alleSchwachstellen analysiert werden, die über dasNetzwerk selbst, über die einzelnen im Netzwerkverbundenen Systeme und die auf diesen Syste-men laufende Softwareprogramme bekannt sind.Die Schwachstellen-Informationenwerden dazu per-manent im Internet abgerufen und normalisiert inder Schwachstellendatenbank HPI-VDB abgelegt,die übrigens über das Internet frei verfügbar ist:www.hpi-vdb.de.