BIG DATA - Tobias Lindner€¦ · BIG DATA Big Data – Eine Begriffsbestimmung 4 Forrester Research hat versucht, die Merkmale von Big Data in den so genannten vier „V’s“ zu

SEMINARARBEIT

BIG DATA Informationsschätze oder Datenmüll?

Enterprise Information Management

Tobias Lindner

15.05.2013

Hochschule München Fakultät für Informatik und Mathematik Bachelorstudiengang Wirtschaftsinformatik Seminar Wirtschaftsinformatik: Enterprise Information Management Thema: Big Data Leitung: Dr. Nikolai Bauer Semester: Sommersemester 2013

Copyright Alle Inhalte der vorliegenden Publikation, insbesondere Texte, Grafiken und Fotografien sind urheberrechtlich geschützt. Das Urheberrecht liegt, soweit nicht ausdrücklich anders gekennzeichnet, bei dem Verfasser dieser Arbeit. Eine Weitergabe, Vervielfältigung oder Übersetzung dieser Publikation oder von Teilen daraus sind, zu welchem Zweck und in welcher Form auch immer, ohne die ausdrückliche schriftliche Genehmigung durch den Autor Tobias Lindner nicht gestattet. Copyright © 2013 Tobias Lindner. Hiermit erkläre ich, dass ich die vorliegende Studienarbeit selbständig verfasst, noch nicht anderweitig für Prüfungszwecke vorgelegt, keine anderen als die angegebenen Quellen oder Hilfsmittel benutzt sowie wörtliche und sinngemäße Zitate als solche gekennzeichnet habe.

_________________________ Tobias Lindner

BIG DATA

Inhaltsverzeichnis

V

Inhaltsverzeichnis

EINLEITUNG 1

BIG DATA – EINE BEGRIFFSBESTIMMUNG 2

DATEN ALS PRODUKTIONSFAKTOR 2

VERNETZUNG IN WELLEN 2

WAS IST BIG DATA? 3

WARUM ÜBERHAUPT „BIG“? 3

VOLUME 4

VARIETY 5

VELOCITY 6

VARIABILITY 6

CHANCEN UND HERAUSFORDERUNGEN FÜR UNTERNEHMEN 7

MIT BIG DATA VERBUNDENE CHANCEN 7

MIT BIG DATA VERBUNDENE HERAUSFORDERUNGEN 8

EINSATZBEISPIELE AUS DER PRAXIS 9

ECHTZEIT-ANALYSE FÜR SMARTER CITIES 9

EFFIZIENTERE PREISBERECHNUNG 9

RISIKOABSCHÄTZUNG IN ECHTZEIT 9

BLICK IN DIE ZUKUNFT 10

TECHNISCHER PARADIGMENWECHSEL 10

DAS ENDE DES ZUFALLS (DATENAUSWERTUNG VS. MODELL) 10

FAZIT 11

ANHANG 12

ABBILDUNGSVERZEICHNIS 12

LITERATURVERZEICHNIS 12

INTERNETQUELLEN 13

BIG DATA

Einleitung

1

„Big Data ist wie das Thema Sex bei

Teenagern – jeder spricht davon, aber

wenige kennen sich damit aus .“

» Dr. Patil, Data Scientist bei Greylock Partners

auf der DLD Conference 2013 in München

Einleitung Internet of Things, Social Media,

Social Recommendation, Social

Commerce, e-Commerce, Mobile

Commerce, Mobile Payment, Cloud

Computing, Cloud Based Services,

Smart Grid, Smart Metering, Smart

Cities, Website Tracking, Realtime

(Re-)Targeting, Customer Journey,

Location Based Services, …

Was haben die oben genannten

Begriffe gemeinsam? Zum einen

lesen sie sich wie beliebte Phrasen

von Beratern. Zum anderen haben

sie aber auch einen gemeinsamen technologischen Kern: In all diesen Zusammenhängen entstehen

gigantisch große Datenmengen unterschiedlichster Art.

Doch was genau bedeutet eigentlich gigantisch groß? Laut der Digital Universe Studie des Marktforschungsunternehmens IDC, die jährlich im Auftrag des

Storage-Spezialisten EMC durchgeführt wird, wurden bis ins Jahr 2011 1,8 Zettabyte - oder

umgerechnet 1,8 Billionen Gigabyte - an digitalen Daten erzeugt. Zum Vergleich: Um diese Daten auf

iPads mit einer Speicherkapazität von 32 Gigabyte zu speichern, würden 57,5 Milliarden iPads

benötigt werden. Diese aufeinandergestapelt ergäbe einen Turm, der elf Mal höher ist als der

höchste Berg der Welt – der Mount Everest mit 8.848 Meter. Die neu erzeugte Datenmenge im Jahr

2012 betrug bereits 2,8 Zettabyte und im Jahr 2020 sollen es schon 40 Zettabyte sein. Dies

entspräche dann in etwa der geschätzten Menge aller jemals von Menschen gesprochenen Worte,

falls man diese digitalisierten würde. Diese Vergleiche sollen jedoch nur annähernd einen Eindruck

von der enormen Größe des digitalen Universums vermitteln. (vgl. [WEB1])

Informationsschätze oder Datenmüll? Das aktuell häufig benutzte, aber selten klar definierte Modewort hierfür: Big Data. Doch was genau

ist mit Big Data eigentlich gemeint? Handelt es sich dabei nur um einen dieser schnelllebigen Trends,

die zuerst von Marketingstrategen gepusht

werden um anschließend wieder mehr

oder weniger in der Versenkung zu

verschwinden oder ist es für Unternehmen

tatsächlich relevant? Und wenn ja, für

welche? Geht es dabei nur um die

enormen Datenmengen an sich oder spielen andere Faktoren wie die Datenvielfalt, die

verschiedenen Datenquellen oder die Geschwindigkeit mit der diese Daten generiert und verarbeitet

werden eine nicht zu vernachlässigende Rolle? Und vor allen Dingen: Welche Chancen und Potenziale

ergeben sich aus diesem vermeintlichen Datenschatz für Unternehmen und welchen technischen und

organisatorischen Herausforderungen müssen sie sich dabei stellen?

Abbildung 1: Digitalisierung der Welt Quelle: makingdatameaningful.com

BIG DATA

Big Data – Eine Begriffsbestimmung

2


Daten als Produktionsfaktor Heutzutage kommt es ganz besonders

darauf an, die richtigen Informationen in

der richtigen Situation am richtigen Ort

rechtzeitig zur Verfügung zu haben.

Daher haben sich neben den klassischen

Produktionsfaktoren Arbeit, Kapital und

Boden Daten bzw. der Zugang dazu zu

einem neuen, vollwertigen Produktions-

faktor entwickelt und spielen für den

Erfolg eines Unternehmens eine immer größere Rolle. Informationen sind zum Motor der Welt

geworden und immer mehr Datensätze werden heute von Unternehmen aus allen Branchen

verarbeitet, kombiniert und verglichen. So sollen beispielsweise die Kosten weiter gesenkt, die

Produktivität gesteigert oder die Qualität von neuen und bestehenden Produkten verbessert werden.

Auch erhoffen sich viele Unternehmen Wettbewerbsvorteil gegenüber Mitbewerbern, wenn sie das

Verhalten ihrer Kunden genauer und zeitnaher analysieren.

Die hohe Bewertung von Daten lässt sich auch sehr gut an der aktuellen Entwicklung der Online-

Geschäftsmodelle von Google, Facebook, Twitter und Co. erkennen. Diese sind vor allem auf das

Sammeln und Generieren von massenhaften Daten ausgelegt, mit denen in der Zukunft ggf. viel Geld

verdient werden kann.

Um die Daten nun sinnvoll einsetzen zu können, müssen aus diesen zunächst Informationen

entstehen, indem sie in einen Kontext eingebunden werden und ihnen eine Bedeutung gegeben

wird. Anschließend entsteht durch das

Zusammenfügen oder Herausfiltern von

relevanten Informationen Wissen,

welches die Entscheidungsgrundlage für

weiterführende Aktionen darstellt.

Dieser Transformationsprozess wird in

der so genannten „Wissenstreppe nach

North (1998)“ beschrieben und

veranschaulicht die zentrale Bedeutung

von Daten für ein Unternehmen. Die

oberste Zielsetzung lautet daher,

vertrauenswürdige Daten zu schaffen.

Vernetzung in Wellen Bei der globalen Vernetzung handelt es sich um einen Prozess, der in Wellen verläuft. Die erste

Welle, die heute mehr oder weniger abgeschlossen ist, besteht darin, alle existierenden stationären

Computer mit dem Internet zu verbinden. Die zweite Welle begann mit der Einführung von

internetfähigen Mobilfunkgeräten, wie beispielsweise Smartphones und Tablets. Diese Welle ist noch

Abbildung 3: Wissenstreppe nach North Quelle: Eigene Darstellung

Abbildung 2: Produktionsfaktoren Quelle: Eigene Darstellung

BIG DATA


3

Der Begriff „Big Data“:

September 2008: Das Wissenschaftsmagazin

„Nature“ platzierte den Begriff „Big Data“ auf der

Titelseite und fokussierte auf das besondere

Problem, dass die „[…] in vielen Bereichen der

Forschung […] in Experimenten und Simulationen

erzeugten Datenmengen alle zuvor gekannten und

beherrschbaren Größenordnungen [übersteigen].“

Juli 2011: Analystenhaus Gartner nahm den

Begriff „Big Data“ in seinen „Hype Cycle“ zur

Bewertung neuer Technologien auf.

nicht vollständig beendet, beeinflusst allerdings bereits den Alltag der meisten Menschen. Die dritte

und vor kurzem gestartete Welle, umfasst die Verbindung von Geräten mit dem Internet. Diese wird

auch als „The Internet of Things“ oder zu Deutsch „Das Internet der Dinge“ bezeichnet. Egal ob

Autos, Kühlschränke, Wetterstationen oder digitale Fotokameras – alle diese Dinge sammeln Daten

und werden über das Internet miteinander verbunden. Dies ist auch die Welle, in der Big Data

angesiedelt ist. Die Entwicklung der nächsten Welle lässt sich im Übrigen bereits erahnen: Die

Einbeziehung des menschlichen Körpers. Google hat mit seinem Forschungsprojekt „Google Project

Glass“ – der digitalen Brille, die aus dem Internet bezogene Informationen in das Sichtfeld des

Trägers einblendet – bereits den Start der vierten Welle eingeläutet. (vgl. [WEB2], [WEB3])

Was ist Big Data?

Warum überhaupt „Big“?

In letzter Zeit ist es fast unmöglich, von dem Phänomen „Big Data“ nichts mitzubekommen. Überall

hört und liest man davon. Doch was genau verbirgt sich dahinter?

Wikipedia beschreibt Big Data als „[…] besonders große Datenmengen […], die mit Hilfe von

Standard-Datenbanken und Datenmanagement-Tools nicht oder nur unzureichend verarbeitet

werden können.“ (vgl. [WEB4])

Doch ab wann genau handelt es sich um „besonders große Datenmengen“ und wann ist die Größe

der Datenbestände lediglich als „normal“ oder „klein“ einzustufen? Handelt es sich wirklich nur um

die reine Menge an Daten, wenn wir von Big Data sprechen oder steckt hinter dem neuen Stichwort

der Industrie noch mehr?

Laut den beiden Marktforschungsunternehmen Gartner und Forrester Research sowie der Firma IBM

beschreibt das Wort „Big“ nicht sehr angemessen, was unter dem Begriff Big Data zu verstehen ist

und wird daher oftmals mit falschen oder ungenügenden Assoziationen – nämlich meist reduziert auf

eine gigantische Menge an Daten – in Verbindung gebracht. Tatsächlich beschreibt es aber nur ein

Merkmal bzw. einen Parameter der so genannten „multi-dimensionalen Technologie“. Das reine

Sammeln oder Speichern von großen Datenbeständen beschreibt nur ansatzweise, was unter dem

Begriff Big Data zu verstehen ist. Ein Unternehmen, das beispielsweise mehrere hundert Terabyte an

Daten „passiv“ sammelt, aber in keinster Weise versucht diese zu analysieren und daraus

Erkenntnisse oder Zusammenhänge abzuleiten, praktiziert kein Big Data. Big Data umfasst wesentlich

mehr. Es geht um das Verarbeiten von

sehr großen Datenmengen in Echtzeit, um

das Durchführen von hochkomplexen

Analysen und um die sinnvolle

Visualisierung der daraus resultierenden

Ergebnisse. Es geht um das Erkennen von

versteckten Mustern in den Daten und um

das Finden von Antworten auf schwierige

Problemstellungen. Meist wird in diesem

Zusammenhang auch von „Extreme

Information Processing“ oder „Extreme

Information Management“ gesprochen. Quelle: [BIT, Seite 20]

BIG DATA


4

Forrester Research hat versucht, die Merkmale von Big Data in den so genannten vier „V’s“ zu

definieren: der Menge an zu verarbeitenden Daten (Volume), der großen Vielfalt der meist

unstrukturierten Daten (Variety), der enorm hohen Geschwindigkeit, mit der die Daten generiert und

ausgewertet werden (Velocity) und dem Erkennen von Zusammenhängen, Bedeutungen und

Mustern in den Daten sowie der Visualisierung dieser (Variability). (vgl. [ORE, S. 3ff], [WEB5])

„Zusammenfassend bezeichnet Big Data den Einsatz großer Datenmengen aus vielfältigen Quellen

mit einer hohen Verarbeitungsgeschwindigkeit zur Erzeugung wirtschaftlichen Nutzens.“ (vgl. [BIT,

Seite 21])

Volume

GPS und Stau-Angaben für Autofahrer, RFID, Informationen von Überwachungskameras und

Sensoren, Bestellungen und Suchanfragen im Internet, Statusmeldungen in Social-Media-

Anwendungen wie Facebook, Twitter und Co – die Menge an Informationen die Tag für Tag von

Menschen oder automatisch erzeugt werden gleicht einer wahren Datenexplosion. „Von 2000 bis

2002 sind mehr Daten generiert worden, als in den 40.000 Jahren davor. Von 2003 bis 2005 hat sich

diese Datenmenge wiederum vervierfacht. Und 2012 wird sich das weltweite Volumen digitaler

Daten auf 2.5 Zettabytes gegenüber 2006 verzehnfachen. (vgl. [BIT, Seite 12])“. Abbildung 5 auf der

nachfolgenden Seite veranschaulicht diese explosionsartige Entwicklung des Wachstums der

Datenmenge über die Zeit. Dabei handelt es sich meist um Unternehmen und Organisationen, die

über enorme Datenberge in Größenordnungen von mehreren hundert Terabyte bis hin zu einigen

Petabyte reichen. Facebook speichert und analysiert beispielsweise mehr als 30.000 Terabyte an

Daten, die von den Nutzern des Dienstes generiert wurden. Pro Tag werden dabei 2,5 Milliarden

Inhalte geteilt, 2,7 Milliarden „Like“-Klicks gespeichert und mehr als 300 Millionen neue Fotos

Abbildung 4: Die vier „V’s“ von Big Data Quelle: Eigene Darstellung

BIG DATA


5

hochgeladen. Der Suchmaschinenhersteller Google verarbeitete bereits im Jahr 2008 täglich mehr als

20 Petabyte (20.000 Terabyte) an Daten und der US-amerikanische Einzelhandelskonzern Wal-Mart

erfasst jede Stunde mehr als eine Million Transaktionen seiner Kunden. (vgl. [BIT, S. 11ff und 21],

[ORE, S. 3ff], [SUZ, S. 26], [WEB6], [WEB7])

Abbildung 5: Wachstum der Datenmengen

Variety

Mit dem explosionsartigen Wachstum der Datenmengen geht zudem eine drastische Zunahme der

Datenvielfalt einher. Mehr und mehr Unternehmen müssen sich heute mit einer steigenden Anzahl

an Datenquellen und Datenformaten auseinandersetzen. Neben den unternehmensinternen Daten,

wie beispielsweise Kundenstämmen oder Bestelltransaktionen, häufen sich immer mehr Daten aus

externen Quellen – allen voran den unzähligen sozialen Netzwerken – an. Die Daten liegen dabei in

unterschiedlichsten Arten vor und lassen sich in strukturierte, unstrukturierte sowie

semistrukturierte Daten gruppieren. Bei unstrukturierten Daten handelt es sich zum Beispiel um

Bilder, Grafiken oder Videos, während semistrukturierte Daten einen Teil der Strukturinformation

mit sich tragen. Beispiele hierfür sind formatierte Texte in Dokumenten oder Blogartikeln, die durch

die enthaltenen Überschriften und Absätze

eine implizite Struktur besitzen, die allerdings

vor der effizienten und gewinnbringenden

Nutzung zuerst extrahiert werden muss.

Oftmals wird auch von so genannten

polystrukturierten Daten gesprochen. Dabei

handelt es sich um einen neuen Begriff, der

neben den strukturierten und

unstrukturierten Daten auch die derzeit

massiv auftretenden maschinengenerierten

Daten mit einbezieht. (vgl. [BIT, S 11ff + 19ff])

Quelle: [BIT, Seite 12]

Abbildung 6: Datenvielfalt Quelle: Experton Group AG (2012)

BIG DATA


6

Velocity

Neue Daten entstehen heutzutage im Sekundentakt. Dies hat zur Folge, dass die gigantischen

Datenmengen immer schneller verarbeitet und ausgewertet werden müssen. Dabei lautet die

Anforderung häufig: in Echtzeit!

Vor allem bei zeitkritischen Anwendungen und Prozessen ist es meist unabdingbar, die Daten bereits

während der Übermittlung zu verarbeiten, um den größtmöglichen Nutzen zu erzielen. Dies ist

beispielsweise bei der Erkennung von Betrugsversuchen im Banken- und Transaktionsbereich der

Fall. Aber auch bei der Auswertung von Sensor- und Thermometerinformationen, bei der

Videoüberwachung von Sicherheitszonen oder beim automatischen Auffinden von bestimmten

Personen mittels Gesichtserkennung müssen die Daten meist in Echtzeit verarbeitet werden.

Die Herausforderung, Daten in möglichst hoher Geschwindigkeit zu verarbeiten, besteht jedoch

schon seit längerer Zeit. Viele Unternehmen analysieren bereits seit Jahren das „Klick-Verhalten“ von

Webseitenbesuchern, um diesen Kaufempfehlungen möglichst zeitnah auf der Webseite anzeigen zu

können. (vgl. [BIT, S. 19ff], [ORE, S. 5ff])

Variability

Den meisten Unternehmen liegt heutzutage mit ihren riesigen Datenmengen ein enormer

Informationsschatz zu Füßen. Aufgrund des gewaltigen Umfangs müssen diese Daten jedoch auf

möglichst schnellen und meist verteilten Computern maschinell ausgewertet werden.

Das vierte Merkmal von Big Data, Variability, umfasst daher Algorithmen, Methoden und Verfahren,

um in den Datenbergen möglichst automatisiert Muster, Zusammenhänge und Bedeutungen zu

erkennen. Dazu zählen neben statistischen Verfahren auch Optimierungsalgorithmen,

Vorhersagemodelle, Text- und Bildanalysen sowie Data Mining. Diese Technologien sollten allerdings

nicht als direkte Konkurrenten zu den etablierten IT-Systemen, sondern als logische

Weiterentwicklung und sinnvolle Ergänzung der bestehenden Systemlandschaften gesehen werden.

(vgl. [BIT, S. 19ff])

Das Auffinden von Mustern kann dabei in zwei Bereiche geteilt werden. Zum einen in Muster, die

schon existieren und bereits definiert sind. Diese können beispielsweise verwendet werden, um

Annahmen über die Wirklichkeit zu bestätigen. Zum anderen soll nach neuen Zusammenhängen

gesucht werden, die im Vorfeld noch nicht definiert wurden. Als

Beispiel wäre hier die bekannte Korrelation zwischen

Storchenpaaren und Geburten zu nennen. Doch Vorsicht: ein

bestehender Zusammenhang zwischen zwei Werten bedeutete

nicht automatisch, dass ein Wert die Ursache des anderen Wertes

ist, auch wenn zwischen ihnen eine statistische Beziehung

existiert. Es wird in diesem Fall auch von einer so genannten

Scheinkorrelation gesprochen. Um nun aus den vorhandenen

Datenbergen die geschäftlich verwertbaren Muster, Korrelationen

und Zusammenhänge herausfiltern zu können, ist es notwendig,

bereits vor der Erstellung der Algorithmen zu wissen, was man

sucht. Schnelle Computer und statistische Analysen auf riesige

Datenmengen alleine reichen also nicht aus, um den

Informationsschatz zu heben. (vgl. [WEB2], [WEB8])

Abbildung 7: Scheinkorrelationen

Quelle: [WEB2]

BIG DATA

Chancen und Herausforderungen für Unternehmen

7

Chancen und Herausforderungen für Unternehmen Derzeit liest man vor allem im Zusammenhang mit Big Data Sätze wie „Informationen sind der

Rohstoff der Zukunft“ oder „Daten sind das neue Öl der Wirtschaft“. Doch welche Chancen und

Potenziale ergeben sich daraus und welche technischen und organisatorischen Herausforderungen

müssen dabei gemeistert werden?

Mit Big Data verbundene Chancen Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) hat insgesamt 50

internationale Big Data Einsatzszenarien aus verschiedensten Branchen und Unternehmensbereichen

analysiert und dadurch drei zentrale Chancen für Unternehmen in Deutschland ermittelt: (vgl. [BIM,

Seite 42f], [FRA, Seite 42ff])

Effizienteres Unternehmensmanagement

Durch die steigenden Möglichkeiten des direkten Zugriffs auf aktuelle Daten sowie die

zunehmende Automatisierung von Entscheidungen sind neue Low-Cost-Geschäftsmodelle

und dadurch auch eine höhere Attraktivität für Investoren durch die geringere

Kapitalbindung möglich. Beispiele hierfür sind neben dem Überwachen der Lagerbestände

oder der automatischen Routenplanung der Fahrzeugflotte auch Prognosen bezüglich der

Kündigungswahrscheinlichkeit oder der zukünftigen Markenwahrnehmung.

Massenindividualisierung von Diensten

Durch die Kombination von eigenen und externen Datenquellen und des Aufbaus einer

Wissensbasis über Produkte, Lieferanten und Kunden, können stärkere und neue Formen

von Kundenbindungen entstehen. Verhaltensbasierte Energieberatungen, individualisierte

Pauschalreisen oder ein Assisted Finance für individuelle Finanzziele sind nur einige Beispiele.

Intelligente Produkte

Durch die Nutzung von neueren und komplexeren Sensoren und der Einbindung von

maschinellem Lernen ist es möglich, Produkten einen bestimmten Grad an „Eigenintelligenz“

zu geben und dadurch bereits existierende Produkte und Dienstleistungen mit

Mehrwertdiensten aufzuwerten. Intelligente Häuser und Haushaltsgeräte, virtuelle

Assistenten oder die integrierte Selbstwartungsfunktion in Anlagen und Maschinen sind in

diesem Bereich beispielsweise zu nennen.

Neben diesen drei zentralen Potenzialen existieren allerdings noch viele weitere Aspekte, die für den

Einsatz von Big Data in Unternehmen sprechen. Angefangen bei der Optimierung von bestehenden

Geschäftsprozessen und der Etablierung vollständig neuer Geschäftsmodelle über die Steigerung der

Kenntnisse des Kundensegments bis hin zur frühzeitigen Erkennung von Marktveränderungen. Laut

einer Umfrage der Experton Group bezüglich der positiven Auswirkungen aus dem Einsatz von Big

Data in deutschen Unternehmen erwarten die Befragten vor allem bessere Informationen über das

Informations- und Kommunikationsverhalten ihrer Kunden (38%), bessere Aussteuerung von

Vertriebs- und Marketingkampagnen (38%) sowie geringere Kosten durch die Optimierung von

Logistikprozessen (37%) und strategische Wettbewerbsvorteile durch genauere und schnellere

„Markt-Intelligenz“ (19%). Diese Ergebnisverteilung zeigt sehr deutlich, dass der Einsatz von Big Data

nicht nur auf die Erreichung eines bestimmten Ziels beschränkt werden muss. Je nach

Anwendungsszenario können auch mehrere Ziele gleichzeitig unterstützt werden. (vgl. [BIT, S. 11ff])

BIG DATA

Chancen und Herausforderungen für Unternehmen

8

Mit Big Data verbundene Herausforderungen Beim Einsatz von Big Data ergeben sich für Unternehmen jedoch nicht nur neue Chancen. Big Data

konfrontiert Unternehmen sowohl mit technischen als auch mit organisatorischen

Herausforderungen, die gemeistert werden müssen.

Die wesentlichen technischen Herausforderungen bei der Planung und Umsetzung von Big Data

Strategien liegen laut einer Experton Group Umfrage von 2012 vor allem in den neuen Dimensionen

bezüglich des Volumens und der Vielfalt der Daten sowie den Anforderungen an die extrem hohen

Verarbeitungsgeschwindigkeiten. So nennen viele Unternehmen mit hoher Zustimmung (52%), dass

ihre Netzwerkkapazität und Performance nicht auf die neuen Datenvolumen und -Strukturen

ausgelegt sei und dass die derzeit im Einsatz befindlichen traditionellen, relationalen Datenbanken

und Storage-Systeme Analysen auf große, unstrukturierte Daten in Echtzeit verhindere (49%).

Schwierigkeiten werden auch im Umgang mit neuen Tools, Technologien und Verfahren erwartete

(47%), da es noch zu wenige, so genannte „Data Scientists“ und somit zu wenig Erfahrung in den

Unternehmen gäbe. (vgl. [BIT, Seite 11ff und 15ff])

Abbildung 8: Wesentliche Herausforderungen im Zusammenhang mit Big Data

Neben dem Überwinden der technischen Herausforderungen ist auch aus organisatorischer Sicht

eine klare Strategie notwendig, um Big Data im Unternehmen erfolgreich einzuführen. Dazu zählen

vor allem die Transparenz, Interpretation und Validierung der Daten. Klare, eindeutig definierte

Strukturen und Abläufe sowie die Sicherstellung der Datenaktualität bilden dabei die Grundlage, um

die Datenberge als sinnvolle Entscheidungsbasis nutzen zu können. Aus Sicht der IT-Sicherheit und

des Datenschutzes ist es zudem notwendig, ein Data Governance aufzubauen, in dem Prozesse und

Verantwortlichkeiten festgelegt, Compliance-Richtlinien definiert und dessen Umsetzung und

Einhaltung überprüft werden. (vgl. [BIT, Seite 11ff und 15ff])

Quelle: Experton Group AG (2012)

BIG DATA

Einsatzbeispiele aus der Praxis

9

20% weniger Verkehr 50% kürzere Fahrzeiten 20% weniger Emissionen

Optimierung der Preisberechnung von 30 Std. auf unter 2 Std.

Mehrfache Preisanpassung pro Tag möglich

8,8 Milliarden hochkomplexe „Value-at-Risk“-Einzelberechnungen

Reduzierung der Gesamtberechnung von 18 Std. auf wenige Minuten

Reaktionen in nahezu Echtzeit möglich

Einsatzbeispiele aus der Praxis

Echtzeit-Analyse für Smarter Cities Mit Hilfe des Einsatzes von neuesten Big Data Technologien konnte die Königliche Technische

Hochschule Stockholm in Zusammenarbeit mit IBM Research und IBM Schweden das Stockholmer

Verkehrsmanagement erheblich verbessern. Mittels der Software „InfoSphere Streams“ von IBM

werden die kontinuierlich eintreffenden Datenströme in

Echtzeit eingelesen, gefiltert und analysiert. Insgesamt

werden pro Sekunde mehr als 250.000 Verkehrs- und

Wetterinformationen verarbeitet und in das intelligente

Verkehrsleitsystem der Stadt Stockholm eingespeist. Dadurch können Probleme frühzeitig

prognostiziert und alternative Routen empfohlen werden. Die Senkung des Verkehrs sowie der

Emissionen um 20% und die Reduzierung der Fahrzeit um bis zu 50% sind nur einige der positiven

Ergebnisse. (vgl. [BIT, Seite 69])

Effizientere Preisberechnung Das amerikanische Handelsunternehmen Macy’s zählt mit ihren 800 Filialen und mehrere

zehntausend Artikel umfassendes Sortiment zu den größten überregionalen Händlern der USA. Um

wettbewerbsfähig zu sein, erfolgt die

Preisgestaltung aller Produkte über

standortspezifische Merkmale. Insgesamt

ergeben sich dadurch über das gesamte

Sortiment und alle Filialen hinweg mehr als 270 Millionen verschiedene Preise. Vor der Umstellung

auf moderne Big Data Technologien wurden die Preise für das komplette Sortiment wöchentlich neu

berechnet. Dies erforderte mehr als 30 Stunden Rechenzeit. Nach der Optimierung der Datenhaltung

und der Einführung von In-Memory-Analysen konnte die Preisneuberechnung auf unter 2 Stunden

reduziert werden. Durch die enorme Steigerung der Geschwindigkeit ist es nun möglich die Preise

mehrmals täglich neu zu berechnen und so wesentlich besser auf den lokalen Wettbewerb zu

reagieren. (vgl. [BIT, Seite 60])

Risikoabschätzung in Echtzeit Die Berechnungen aller vorhandenen Risiken im Portfolio einer Bank sind äußerst umfassend. Bei der

United Overseas Bank in Singapur verteilt sich das Risiko zum Beispiel auf circa 45.000 verschiedene

Finanzinstrumente sowie mehr als 100.000 einzelne Marktparameter, wie beispielsweise Preise,

Fristen und Fälligkeiten. Die hochkomplexe Gesamtrisikoberechnung umfasst circa 8,8 Milliarden

einzelne Berechnungen und dauert bis

zu 18 Stunden. Zeitnahe Reaktionen

sind somit kaum bis gar nicht möglich.

Aus diesem Grund wurde eine neue

„High-Performance-Analytics“-Lösung

des SAS Institutes im Unternehmen

eingeführt. Mit Hilfe von In-Memory-Technologien, Complex-Event-Processing und auf höchste

Parallelität optimierte Risikoberechnungen konnte die Berechnungsdauer des Gesamtrisikos auf

wenige Minuten reduziert werden. Somit ist die Reaktion auf eintretende Marktänderungen in

nahezu Echtzeit möglich. (vgl. [BIT, Seite 80])

BIG DATA

Blick in die Zukunft

10

Blick in die Zukunft

Technischer Paradigmenwechsel Die große Herausforderung der letzten Jahrzehnte, Informationen von mehreren Millionen Kunden

und Abermillionen Transaktionen zu verarbeiten, zählt heutzutage dank ausgefeilter

Analysewerkzeuge, Datenbanken und IT-Systemen selbst für kleinere und mittelständische

Unternehmen zum normalen Tagesgeschäft. Problematisch wird es erst dann, wenn neue Ansprüche,

wie die Analyse in Echtzeit, die Betrachtung von aggregierten Informationen anstelle von

Einzelvorgängen oder die Auswertung von polystrukturierten Daten gestellt werden. Diese

kontinuierlich steigenden Anforderungen sowie die zunehmende Menge und Vielfalt der Daten

bringen die eingesetzten IT-Tools schnell an ihre Grenzen und erzwingen einen technologischen

Paradigmenwechsel. Neue Ansätze, wie die parallele Verarbeitung von Daten auf verteilten

Systemen oder der Einsatz von so genannten NoSQL-Datenbanken, werden die klassischen

relationalen Datenbanksysteme aufgrund ihrer wesentlich höheren Verarbeitungsgeschwindigkeit

zunehmend verdrängen. Auch Verfahren und Methoden wie beispielsweise MapReduce, Data Mining

oder In-Memory-Computing werden verstärkt Verwendung finden. (vgl. [ISR])

Das Ende des Zufalls (Datenauswertung vs. Modell) Die Menschen sind vorhersehbare Wesen – sie haben Gewohnheiten, Vorlieben, Routinen,

zurückliegende Erlebnisse sowie spezifische Charaktereigenschaften und Persönlichkeitsmerkmale.

Eine genauere Analyse dieser Informationen würde es ermöglichen, einen Teil des zukünftigen

Verhaltens einer Person sehr treffend zu prognostizieren. Chris Anderson, Publizist und

Chefredakteur des Magazins „Wired“ beschrieb bereits 2008 in seinem Artikel „The End Of Theory“

(vgl. [WEB9]), dass die Kombination aus Big Data und angewandter Mathematik viele Modelle zum

menschlichen Verhalten ersetzen könnte – man benötigt nur ausreichend Daten. Dass sich die

Unternehmen diesen Umstand heutzutage zunutze machen, zeigt das Beispiel Google: Die

Suchmaschine liefert bereits beim Eintippen des Suchtextes Vorschläge zur Vervollständigung der

Sucheingabe – und dies beängstigend treffend. Mögliche Tippfehler werden dabei ebenfalls

automatisch korrigiert und mehrsprachige Begriffe mit gleicher Bedeutung wie beispielsweise

München und Munich ersetzt. Dies wird vor allem durch die Echtzeitauswertung von massenhaften

Daten, die Millionen von Menschen zuvor bereits bei Google eingegeben haben, möglich. Der Trend,

die Verwendung von Modellen durch die Auswertung von Daten zu ersetzen, wird auch in Zukunft

weiter steigen. Zu sehr ähnlichen Ergebnissen kommt auch der österreichische Autor Rudi

Klausnitzer. Er beschreibt in seinem Buch „Das Ende des Zufalls“ (vgl. [KLA]), wie die Auswertungen

der heute verfügbaren Datenberge unser Leben beeinflussen. Laut Klausnitzer glauben die Menschen

umso weniger an den Zufall, je mehr sie über eine Sache oder ein eingetretenes Ereignis wissen und

deren Zusammenhänge verstehen. Es läge eben in der Natur des Menschen, möglicherweise

eintretende Situationen und Ereignisse berechnen und vorhersagen zu können. Die kontinuierlich

wachsenden Informationsmengen sowie ausgeklügeltere Algorithmen ermöglichen zudem immer

präzisere Vorhersagen. So konnte Google bereits 2010 anhand des Suchverhaltens der Nutzer eine

Grippewelle vorhersagen. Die Polizei von Santa Cruz (USA) berechnet seit über zwei Jahren mit sehr

hoher Genauigkeit, in welcher Gegend und zu welcher Uhrzeit die höchste Wahrscheinlichkeit für

eine Straftat besteht und schickt ihre Beamten entsprechend auf Streife. Und vielleicht wird eines

der Bedürfnisse des Menschen – dem Zufall durch Berechnungen eine so geringe Chance wie nur

möglich zu gebe – doch noch eines Tages erfüllt, zumindest teilweise. (vgl. [WEB10], [WEB11], [SPI])

BIG DATA

Fazit

11

„Nach Carrie Bradshaws ‚Mr. Big‘, der ‚Big Bang Theory‘

und dem Schachcomputer ‚Big Blue‘ bringt Big Data nun

endlich eine gewissen Größe in die IT – und ist vor allem

mal kein Akronym.“

„Big-Data-Regel Nr. 1:

Sprechen Sie nicht über Big Data. Wer sich

auskennt, verwendet Big Data – alle anderen

reden darüber.“

» Brian Hopkins von Forrester Research

Fazit Big Data – in gewisser Hinsicht ist dieses Phänomen nicht wirklich neu. Aus manchen Blickwinkeln

betrachtet hat es Big Data schon immer gegeben: In den 80er Jahren umfasste die Größe von

Datenträgern und Datenbanken Kilobyte und Megabyte, in den 90ern dann Gigabyte und um die

Jahrtausendwende waren es bereits Terabyte. Heute sind sogar im privaten Umfeld Terabyte zur

gängigsten Maßeinheit geworden und die meisten Großkonzerne verwalten bereits mehrere

Petabyte an Daten. Jede Dekade

der letzten 30 bis 40 Jahre stellte

somit die Herausforderung,

größere Datenmengen zu

bewältigen als die vorherige.

Aktuell findet allerdings eine Weiterentwicklung statt. Heutzutage handelt es sich nicht mehr nur um

das reine Wachstum der Datenmengen. Zu den zu meisternden Herausforderungen zählen weitere

Faktoren, wie die gewaltig gestiegene Datenvielfalt an strukturierten, unstrukturierten und

semistrukturierten Daten sowie die enorm hohe Geschwindigkeit, mit der die Daten erzeugt und

verarbeitet werden müssen. Dies sind die Anforderungen, die die derzeitigen IT-Megatrends

„Mobile“, „Cloud“, „Social“ und „Big Data“ stellen.

Die Relevanz von Big Data wird in den

kommenden Jahren weiter zunehmen. Nicht

nur bei den Big-Playern, wie Google,

Facebook, Amazon und Co, sondern auch

und vor allem im Mittelstand. Welche

gewaltigen Potenziale schon heute aus dem

Einsatz von Big Data gezogen werden

können, zeigen die eindrucksvollen und in

dieser Arbeit veranschaulichten Praxisbeispiele des Stockholmer Verkehrsleitsystems sowie des

Unternehmens Macy’s und der United Overseas Bank. Nichtsdestotrotz dürfen die

Herausforderungen sowie die Gefahr, zu einem „digitalen Messie“ zu werden, nicht unterschätzt

werden. Mehr Daten bedeuten schließlich nicht gleichzeitig bessere Daten.

Fakt ist: Die Menge und Komplexität der Informationen, die auf den Festplatten rund um den Globus

schlummern, sind heute schon gigantisch. Doch verglichen mit dem, was in naher Zukunft noch auf

uns zukommen wird, befinden wir uns derzeit noch im Kindergarten. Letzten Endes stellt sich somit

nur noch eine Frage: Wann ist Löschen angesagt?

Quelle: [BIM, Seite 38]

BIG DATA

Anhang

12

Anhang

Abbildungsverzeichnis Abbildung 1: Digitalisierung der Welt ..................................................................................................................... 1

Abbildung 2: Produktionsfaktoren .......................................................................................................................... 2

Abbildung 3: Wissenstreppe nach North ................................................................................................................. 2

Abbildung 4: Die vier „V’s“ von Big Data ................................................................................................................. 4

Abbildung 5: Wachstum der Datenmengen ............................................................................................................ 5

Abbildung 6: Datenvielfalt ...................................................................................................................................... 5

Abbildung 7: Scheinkorrelationen ........................................................................................................................... 6

Abbildung 8: Wesentliche Herausforderungen im Zusammenhang mit Big Data ................................................... 8

Literaturverzeichnis [BIM] Datengold

business impact: Informationstechnologie für das Management, Ausgabe 01/2013 [BIT] Big Data im Praxiseinsatz - Szenarien, Beispiele, Effekte

BITKOM, 2012 [FRA] Big Data – Vorsprung durch Wissen: Chancen erkennen und nutzen

Frauenhofer IAIS, 2012 [ISR] Klassische Analyse-Tools scheitern an Big Data

is report, Ausgabe 10/2012 [KLA] Klausnitzer, Rudi: Das Ende des Zufalls – Wie Big Data uns und unser Leben

vorhersagbar macht Ecowin Verlag, 1. Auflage 2013

[ORE] Big Data Now: 2012 Edition

O’Reilly Media, Inc., Oktober 2012 [SPI] Leben nach Zahlen: Wie Staaten und Konzerne berechnen, was wir tun werden

Der Spiegel, Heft 20/2013 [SUZ] CeBIT 2013 – Eine Anzeigensonderveröffentlichung

Süddeutsche Zeitung, 28. Februar 2013

BIG DATA

Anhang

13

Internetquellen [WEB1] Digital Universe Study: Extracting Values from Chaos

http://www.emc.com/digital_universe Datum des Zugriffs: 18.04.2013

[WEB2] Big Data: Schatzsuche ohne Karte

http://netzwertig.com/2013/03/19/big-data-schatzsuche-ohne-karte/ Datum des Zugriffs: 18.04.2013

[WEB3] Google Project Glass

http://www.google.com/glass/ Datum des Zugriffs: 18.04.2013

[WEB4] Wikipedia: Big Data

https://de.wikipedia.org/wiki/Big_Data Datum des Zugriffs: 23.04.2013

[WEB5] Forrester Research: Big Is More Than Just Big

http://blogs.forrester.com/brian_hopkins/11-05-13-blogging_from_the_ibm_ big_data_symposium_big_is_more_than_just_big Datum des Zugriffs: 23.04.2013

[WEB6] Big Data Statistics

http://wikibon.org/blog/big-data-statistics/ Datum des Zugriffs: 23.04.2013

[WEB7] Facebook Data Statistics

http://techcrunch.com/2012/08/22/how-big-is-facebooks-data-2-5-billion-pieces-of- content-and-500-terabytes-ingested-every-day/ Datum des Zugriffs: 23.04.2013

[WEB8] Wikipedia: Scheinkorrelation http://de.wikipedia.org/wiki/Scheinkorrelation Datum des Zugriffs: 30.04.2013

[WEB9] The End of Theory: The Data Deluge Makes the Scientific Method Obsolete

http://www.wired.com/science/discoveries/magazine/16-07/pb_theory Datum des Zugriffs: 02.05.2013

[WEB10] Vorhersehbarkeit von menschlichem Verhalten:

Ich weiß, was du diesen Sommer twittern wirst http://netzwertig.com/2013/02/28/vorhersehbarkeit-von-menschlichem-verhalten- ich-weis-was-du-diesen-sommer-twittern-wirst/ Datum des Zugriffs: 02.05.2013

[WEB11] Süddeutsche Zeitung: Ende der Theorie

http://www.sueddeutsche.de/digital/big-data-wenn-daten-sprechen-1.1562758-2 Datum des Zugriffs: 02.05.2013

Documents

BIG DATA - Tobias Lindner€¦ · BIG DATA Big Data – Eine Begriffsbestimmung 4 Forrester Research hat versucht, die Merkmale von Big Data in den so genannten vier „V’s“ zu