18
mitp Professional Rethink Big Data Volume, Velocity, Variety von Cornel Brücher 1. Auflage Rethink Big Data – Brücher schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG Thematische Gliederung: Wirtschaftsinformatik mitp/bhv 2013 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 8266 9452 3 Inhaltsverzeichnis: Rethink Big Data – Brücher

Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 2: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

VELOCITY

MAN

AGEM

ENT

SETS

MAT

AN

AL

YT

IC

S

SEARCH

TECHNOLOGIES

INFO

RM

ATI

ON

RECORDSVARIETY

CAPA

CITY

TIME

CORNEL BRÜCHER

INCL

UDE

SOFT

WAR

E

SHARED

SOCI

ALSTORAGE

LOGG

CAPT

URE

DATABASES

RESE

ARCH

ARCHIVES

DE

FIN

ITIO

N

CASE

ON

E

SIGNIFICANT

BITS

NET

WO

RKS

STORE

DEF

INIT

ION

USE

ORGANIZATION

INDEXING

DES

KTO

P

TOOLS

WIR

ELES

S

VOLUME

www.mitp.de

Ist Big Data die Rettung vor dem Untergang oder die Versenkung des IT-Budgets? Gibt es Big Data-Anwen-dungen mit einem praktischen Nutzen oder wird hier nur techni-scher Spieltrieb befriedigt? Sollte man noch abwarten oder ist es schon fast zu spät?

Diese und weitere Fragen werden in diesem Buch beantwortet. Sie erfahren, wo Big Data ursprünglich herkommt, welche Anwendungen erfolgreich sind, wie Sie Ihre Big-Data-Projekte zum Erfolg führen und welche Riffe dabei umschifft werden müssen.

Wenn Sie zu einem brandaktuellen Thema nicht nur gut informiert, son-dern auch gut unterhalten werden wollen, ist dieses Buch genau das Richtige für Sie!

Außerdem im Verlag erschienen:

ISBN 978-3-8266-9223-8

ISBN 978-3-8266-9216-1

ISBN 978-3-8266-9106-5

Brüc

her»Ein Hype ist nichts weiter als eine Welle, die auf den

Strand trifft. Wenn sie sich wieder zurückzieht, ist sie ver-gessen, aber manchmal lässt sie ein Stück Bernstein zurück.«

(Cornel Brücher)

(D) €

24

,99

ISBN 978-3-8266-9452-3ISBN 978-3-8266-9452-3

RETH

INK

BIG

DAT

A

11 mm

Aus dem Inhalt:

• Der Gartner Hype Cycle

• Bedeutung des Hype Cycle für das Business

• Anwendungsbeispiel Smart Port Logistics

• Big Data in der Historie

• Volume, Velocity, Variety

• Viele Nadeln in vielen Heuhaufen

• Die Freitextfalle

• Lohnt sich Big Data ?

• Predictive Maintenance

• Predictive Analytics

• Der Neurobayes- Algorithmus

• Kundenfeedback im Social Web

• Vorgehensmodell Social Network Analytics

• Vorgehensmodell Predictive Analytics

• Mythos Data Scientist

• Big Data und Datenschutz

• Wrap-up und Ausblick

Cornel Brücher arbeitet als Principal bei der SHS VIVEON GmbH und blickt auf über 25 Jahre IT- und Hypeerfah-rung zurück. Mit dem schon aus seinen früheren Büchern bekannten augenzwinkernden Stil hat er sich dieses Mal den aktuellen Big Data-Hype vorgenommen.

978-3-8266-9452-3_umschlag.indd 1-3 11.09.2013 09:27:49

Page 3: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

11

1

Big HypeEs gibt zwei Arten von Narren. Die einen sagen: »Das ist alt,folglich ist es gut«; die anderen sagen: »Das ist neu, folglichist es besser.« (Dean William Ralph Inge)

1.1 Der aktuelle HypeBig Data ist »in«. Der Begriff eignet sich wie kaum kein anderer zuvorfür einen Hype. Big Data, Big Business, Big Profit. »Daten sind dasneue Öl/Gold/whatever!« Goldgräberstimmung! Wer dabei sein will,weiß oft noch nicht wozu, aber dass man es mit Hadoop machenmuss. Dabei ist das Neue an Big Data vor allem der Begriff selbst. DieArbeit mit großen Datenmengen war in der IT schon immer Routine.Jetzt sind die Datenmengen etwas größer als vorher. Na und?

»There is no Hype«

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 4: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

12

Kapitel 1 – Big Hype

Natürlich hat Big Data mit großen Datenmengen zu tun. Datenmen-gen, die noch vor zehn Jahren unvorstellbar waren, und die auch heu-te noch ausgefuchsten Datenbankspezialisten die Schweißperlen aufdie Stirn treiben. Die pure Masse kann aber nicht das einzige Kriteri-um sein, denn auch vor zehn Jahren wurde mit Datenmengen gear-beitet, die ausgefuchsten Datenbankspezialisten die Schweißperlenauf die Stirn trieben und die weitere zehn Jahre davor unvorstellbarwaren. Eine entscheidende Voraussetzung für den Hype ist wohl dercoole englische Begriff »Big Data«. Die früher in der EDV verwendeteBezeichnung »Massendatenverarbeitung« hätte niemals den gleichenLevel an Ekstase in den Führungsetagen und Redaktionsbüros dieserWelt hervorrufen können.

Wirklich in den Führungsetagen? Oder eher bei den Technikfreaks?

Wie bei jedem mit technischen Neuerungen einhergehenden Hypeist das Thema anfangs völlig technikgetrieben und eine Spielwiesefür Nerds, Geeks und sonstige Techies. Die Motivation für das neueThema bewegt sich zwischen technischem Spieltrieb und der Suchenach neuen technischen Herausforderungen. Es macht eben mehrSpaß, statt der üblichen ETL-Prozeduren einen Map-Reduce-Algo-rithmus zu programmieren. Der Spieltrieb wird dann gerechtfertigtmit dem Argument, ohne Big Data sei man nicht mehr wettbewerbs-fähig. Das ist natürlich einleuchtend, schließlich war man ohneUnix/C/SQL/Java/.NET/SOA/Cloud auch nicht mehr wettbewerbs-fähig und hatte den sicheren Untergang vor Augen.

Erste Strategiebesprechungen zu Big Data driften meist auf die tech-nische Ebene ab. Aus der Technik heraus wird dann versucht, einenNutzen zu konstruieren. Um eine solche Besprechung früher zu been-den und wenigstens einen Nutzen daraus zu ziehen, spielen Sie docheine Runde »Big Data Buzzword Bingo«.

Spielregeln: Bei einer Big Data-Strategiebesprechung auf das Auftau-chen der folgenden Buzzwords oder Redewendungen warten und die-se von der Liste streichen. Bei einer gefüllten Reihe, Spalte oder Dia-gonale aufstehen und laut »Hadoop!« rufen. Mit der Zeit relativiertsich das alles wieder, sinnvolle Technologien bleiben übrig, und wermit aller Gewalt an irgendeiner Hype-Technologie festhält, hat viel-leicht eher den Untergang seines Projekts vor Augen.

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 5: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

RETHINK BIG DATA

13

Woran erkennen wir eigentlich, dass es sich bei Big Data um einenHype handelt? Die Marktforscher von Gartner haben dazu einen»Hype Cycle« veröffentlicht.

1.2 Der Gartner Hype Cycle1

Im Zusammenhang mit Big Data ist so oft vom »Gartner Hype Cycle«die Rede, dass man schon von einem »Gartner-Hype-Cycle-Hype«sprechen könnte, also einem Hype zum Quadrat. Gemeint ist aber imBig Data-Kontext stets der »Gartner Hype Cycle for Big Data« ausdem Jahr 2012. Das ist nur ein Hype Cycle und mitnichten der GartnerHype Cycle. Der Hype Cycle als Methode zur Bewertung neuer Tech-nologien wurde von der Gartner-Beraterin Jackie Fenn schon 1995aus der Taufe gehoben und hat mit der Vorhersage des Dotcom-Crashs seine Feuertaufe bestanden. Er ist völlig unkompliziert undnicht das Ergebnis einer mathematischen Superformel – eher einerguten Beobachtungsgabe.

Der Gartner Hype Cycle besteht aus fünf Phasen, die wir im Folgen-den etwas erläutern:

1. »Technology Trigger«: Die erste Phase ist der »technologischeAuslöser«, ein technologischer Durchbruch, eine gelungene Pro-dukteinführung oder ein vergleichbares Event, das signifikantesInteresse in der Fachpresse und im Fachpublikum auslöst. Veröf-

Hadoop Speicherplatz ist billig

Social Network(s)

High Performance

…-DBMS

Realtime ...-Analytics Data Scientist in-Memory Semantic Web

Predictive-… Context-Enriched

Smart Cloud-… Petabytes

VVV Internet of Things

Map-Reduce Fraud Intelligent Devices

Hybrid-… Key-Value Mongo-DB Grid NoSQL

Tabelle 1.1: Big Data Buzzword Bingo

1. Bilder und Beschreibungen mit freundlicher Genehmigung von Gartner, Inc.

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 6: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

14

Kapitel 1 – Big Hype

fentlichungen zum Thema werden von Personen geschrieben, dieAhnung vom Thema haben. Die Technologie spricht sich herum.

2. »Peak of Inflated Expectations«: In der nächsten Phase, dem»Gipfel der überzogenen Erwartungen«, erreicht der übertriebe-ne öffentliche Enthusiasmus seinen Höhepunkt. Die neue Tech-nologie ist die Zukunft der Menschheit, kann den Welthungerbesiegen und zum Mars fliegen. Es gibt erfolgreiche Projekte mitder neuen Technologie, aber die gescheiterten Projekte werdenbald die Mehrheit erringen. Veröffentlichungen zum Thema wer-den von Personen geschrieben, die glauben, Ahnung vom Themazu haben. Fast alle loben die neue Technologie, weil alle anderenes auch tun. Skeptikern wird die Kompetenz abgesprochen. Dasist die Phase der »Trittbrettfahrer«.

3. »Trough of Disillusionment«: Die neue Technologie enttäuschtin der »Talsohle der Ernüchterung« die überzogenen Erwartun-gen, was auch zu erwarten war. Sie gerät aus der Mode, und diePresse berichtet negativ oder wendet sich ab. Befürwortern derTechnologie wird die Kompetenz abgesprochen.

4. »Slope of Enlightenment«: Außerhalb des Blickwinkels der Pres-se entwickelt sich auf dem »Pfad der Erleuchtung« über ersteerfolgreiche Geschäftsmodelle das Verständnis für praktischeAnwendbarkeit und echte Vorteile der neuen Technologie.

Abbildung 1.1: Gartner Hype Cycle

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 7: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

RETHINK BIG DATA

15

5. »Plateau of Productivity«: Auf der »Hochebene der Produktivi-tät« wird die Technologie stabiler, reift zur 2. und 3. Generationund beweist im Breiteneinsatz Nutzen und praktische Anwend-barkeit.

Laut Gartner zielen die Hype Cycles darauf ab, einen Hype von derRealität zu trennen, und so den CIOs und CEOs eine Entscheidungs-hilfe zu geben, wann eine Technologie zum praktischen Einsatzbereit ist.

1.3 Der Gartner Hype Cycle for Big DataAuf dem Gartner Hype Cycle for Big Data (Stand Juli 2012) sind dieBig Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise PredictiveAnalytics haben sich bereits im Praxiseinsatz bewährt, währendNoSQL den Gipfel der überzogenen Erwartungen noch nichterreicht hat.

Abbildung 1.2: Gartner Hype Cycle for Big Data (2012)

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 8: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

16

Kapitel 1 – Big Hype

1.4 Bedeutung des Hype Cycle für Ihr Business

Wenn Sie Ihr Geschäftsmodell nicht auf einem der Punkte des Gart-ner Hype Cycle for Big Data wiederfinden, gibt es keinen Grund, ner-vös zu werden. Wenn Sie eine der dort erwähnten Big Data-Techno-logien einsetzen, auch nicht. Wenn die bestimmte Technologie für IhrBusiness einen echten Mehrwert liefert, ist es völlig unerheblich, obder Hype um diese Technologie noch zulegt oder abstürzt. Wenn einBig Data-Projekt keinen Mehrwert liefert, können Sie auf der ande-ren Seite auch nicht damit argumentieren, dass Sie sich damit auf der»Hochebene der Produktivität« befinden.

Die Kernaussage des Hype Cycle an sich ist einfach gesagt, dass eseinen Hype gibt, dem Sie nicht nachlaufen müssen, und dass diewirklich nützlichen Technologien überleben werden. Der GartnerHype Cycle for Big Data zeigt Ihnen – mit einer gewissen Wahr-scheinlichkeit –, welche Anwendungen und Technologien noch über-bewertet sind.

Ohne die »Trittbrettfahrer«, die einen Hype erst möglich machen,würden wahrscheinlich nur die letzten beiden Phasen des Hype Cycleexistieren, und die Kurve hätte in etwa dieses Aussehen: f(x)= x.

1.5 Eine neue Sicht auf die WeltDie neuen Daten sind nicht einfach aufgetaucht. Niemand hat aufeinen Knopf gedrückt und Big Data eingeschaltet. Die Daten wareneigentlich schon immer da, haben nur niemanden interessiert oderkonnten noch nicht in diesen Mengen gemessen oder verarbeitet wer-den. Das Schiff von Captain Hornblower hat ununterbrochen Posi-tions-»Daten« erzeugt, genauso viele wie jedes moderne Schiff auch.Nur wurde die Position nicht ununterbrochen gemessen, denn dafürbenötigte man:

• einen Sextanten (zur Ermittlung des Breitengrades), • eine genaue Uhr (zur Ermittlung des Längengrades),• eine Menge Rechnerei,

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 9: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

RETHINK BIG DATA

17

• gutes Wetter (auf einem stark schaukelnden Schiff kann manden Sextanten nicht ruhig halten, und mit Wolken kann mannicht navigieren).

Hornblower wäre schon froh gewesen, hätte er jeden Tag die genauePosition ermitteln können. Deswegen hat er bei gutem Wetter trotz-dem nicht jede Viertelstunde die Position bestimmt. Wozu auch?

Bleiben wir beim Wetter. Das Wetter erzeugt eigentlich seit demBeginn der Erdgeschichte immer die gleiche Menge an »Daten«. Nurdie Anzahl geographischer Messorte und zeitlicher Messpunktenimmt in unserer Zeit immer mehr zu.

Nehmen wir mal ein gutes altes Quecksilberthermometer. Wie viele»Daten« erzeugt das pro Tag? Antwort: Es kommt darauf an, wie oftSie ablesen. Wenn Sie einmal am Tag die Temperatur ablesen und inden Kalender eintragen, ergibt das ein Stück »Daten« pro Tag. Siekönnen die Taktrate auch gerne steigern und jede Sekunde die Tem-peratur ablesen und aufschreiben. Das Thermometer zeigt die Tem-peratur immer an, egal wie oft Sie es ablesen. Wie viele Daten dabeianfallen, hängt in diesem Fall von der Taktrate der Ablesung ab. Wererzeugt denn jetzt die Daten? Das Thermometer oder Sie?

Erinnern Sie sich noch an die Momente Ihrer Schulzeit, in den Sie voreiner Tafel mit Formeln standen und »den Wald vor lauter Bäumen«nicht sehen konnten? Trat man dann ein oder zwei Schritte zurück,wurde das Bild klarer. Genau das machen wir jetzt auch mit Big Data:Wir treten einen Schritt zurück und denken noch mal über Datennach. Daten sind nicht die Realität, sondern nur ein Abbild davon.Die Zahlen in einer Buchhaltung sind nicht die finanziellen Werte,sondern nur deren Abbildung. Sie können nicht 3 Euro aus dem Kon-to »Hilfs- und Betriebsstoffe« nehmen und damit einen Kaffee kau-fen. Das geht nur mit dem realen Geld aus der Kasse. Wenn Sie 3 Euroaus der Kasse nehmen, dann nehmen Sie keine Daten da raus, son-dern Geld (Geld ist eigentlich auch nur ein Datenträger, aber wir wol-len es ja nicht unnötig kompliziert machen …). Daten werden aus die-sem Vorgang erst, wenn er »gebucht«, also erfasst wird. Dabeikönnen natürlich Fehler passieren. Ein Buchhalter konnte sich ver-rechnen, oder es war jemand heimlich an der Kasse. Schon haben wireine Differenz zwischen der Realität und der Abbildung der Realität

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 10: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

18

Kapitel 1 – Big Hype

in der Buchhaltung. Schon bevor der Begriff »Daten« existierte, warman bemüht, die in der Buchhaltung abgebildeten Finanzen genauund aktuell zu halten. Aber erst die Verarbeitung der Buchhaltung imComputer hat das Spaßpotenzial etwas erhöht und schon mehr alseine komplette Buchhaltungsabteilung auf die Suche nach dem ver-lorenen Rundungspfennig geschickt (dabei heißt es doch immer,beim Geld hört der Spaß auf …).

Abbildung 1.3: Rundungspfennig (US-Version)2

Mit der Verbreitung des Begriffs »Big Data« geht eine Veränderungdes Umgangs mit dem Begriff »Daten« einher. Die Daten, die ein ICEwährend der Fahrt tatsächlich erzeugt, ist nur das, was von Fahr-zeugsensoren gemessen und gespeichert oder anderswo erfasst wird,wie z.B. die aktuelle Position auf der Strecke. Daten sind nur gespei-cherte Fakten. Schiffe und Thermometer können keine Daten erzeu-gen. Sie erzeugen Fakten, die erst mit der Messung oder Erfassung zuDaten werden, gleich ob automatisch oder manuell. Wenn im Kon-

2. ©iStockphoto.com/Photo-Dave

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 11: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

RETHINK BIG DATA

19

text von »Big Data« von Daten gesprochen wird, sind oft die Datengemeint, die man messen oder erfassen könnte, also die realen Faktenals theoretisch mögliche Datenmenge. Um beim Beispiel ICE zu blei-ben, wären das permanente Aufzeichnungen aller Messdaten, auchjener, die sonst nur bei Wartungen abgegriffen werden (z.B. Zustandder Räder und Achsen), dazu noch Personendaten der Fahrgäste,deren Sitzposition sowie Ein- und Ausstiegsbahnhof und die aktuelleVerspätung.

Zu den realen Fakten gehört aber auch die Anzahl der Fliegen auf derFrontscheibe. Will man tatsächlich alles zu Daten machen?

Captain Hornblower hat in seinem Logbuch vielleicht zwei Positions-einträge pro Tag erzeugt, weil das ausgereicht hat. Ein modernesSchiff könnte jede Sekunde einen Positionsdatensatz erzeugen. DieTaktrate, mit der aus Fakten Daten werden, bestimmt – hier im Fallevon Messdaten – die Datenmenge. Wir sind jetzt mit der digitalenDatenverarbeitung so schnell, dass wir gedanklich beginnen, Faktenmit Daten gleichzusetzen und die analoge Welt zu digitalisieren. Klu-ge Köpfe, die eine solche Sichtweise schon vor Jahrzehnten hatten,wurden als »Nerds« belächelt. Ein paar Beispiele gefällig? Sie habendoch sicher schon vom »Internet der Dinge« gehört. Drucker, dieneue Tintenpatronen nachbestellen, Kühlschränke, die Milch bestel-len, und Kaffeemaschinen, die Bescheid geben, dass der Kaffee alleist, sind »in«. Der Begriff »Internet of Things« entstand etwa 19993,und die berühmteste Kaffeemaschine der Welt, der »Trojan RoomCoffee Pot«4 der University of Cambridge, zeigte ihren Nutzernschon 1991 ihren Füllstand an. Ende 19935 lief hier die erste Webcamdes Internets. Der viele Jahre ältere Cola-Automat des Carnegie Mel-lon University Computer Science Departments informierte seinedurstigen Kunden, ob er noch Coke vorrätig hatte6, und ob dieseschon ausreichend gekühlt war – viele Jahre, bevor der erste Web-browser existierte. Die Abfrage funktioniert sogar noch, wahrschein-

3. http://www.rfidjournal.com/articles/view?49864. http://www.cl.cam.ac.uk/coffee/coffee.html5. http://www.cl.cam.ac.uk/coffee/qsf/timeline.html6. http://www.cs.cmu.edu/~coke/history_long.txt

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 12: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

20

Kapitel 1 – Big Hype

lich aus reiner Nostalgie heraus, nur der Automat selbst ist nichtmehr online:

Beide Basteleien hatten das sinnvolle Ziel, Informationen dorthin zubringen, wo sie benötigt werden. Die Anwender haben Zeit gespart,also hatten diese Anwendungen schon einen wirtschaftlichen Nutzen.

Bei vielen Big Data-Anwendungen geht es eigentlich um das Gleiche:Informationen vom Ort des Entstehens dorthin zu bringen, wo siebenötigt werden. Der Lokführer eines Zuges weiß, wo er sich befin-det. Die Leitzentrale muss es aber auch wissen, und es interessiertgelegentlich auch die wartenden Fahrgäste an den Unterwegsbahn-höfen, wann der Zug eintreffen wird.

Der Fahrer eines LKWs weiß, wo er sich befindet. Es nützt abernichts, wenn der Disponent es nicht weiß. Flugzeugtriebwerke wer-den auch immer wieder als Big Data-Beispiele genannt, weil sie ex-trem viele Messdaten produzieren. Solange die Daten im Triebwerkbleiben, sind sie aber nutzlos. Sie müssen mit allen anderen Messda-ten zur Wartungsmannschaft transportiert werden7, damit diese sichein Bild vom Zustand des Triebwerks machen kann8.

Wenn Sie im Stau stehen, dann muss man Ihnen das nicht extrasagen, das wissen Sie schon selbst. Trotzdem kamen früher die Stau-meldungen über das Autoradio mit erstaunlicher Treffsicherheit,kurz nachdem man im Stau stand und an der rettenden Ausfahrtvorbei war. Mit der Big Data-Anwendung Google Maps ist das keinProblem mehr. Wer während der Fahrt Google Maps (mit GPS) ver-wendet und zugestimmt hat, dass die Standortdaten an Google über-

hal9000:~ # finger [email protected]

[cs.cmu.edu/128.2.217.13]

One entry found for exact uid match

Login: coke Name: Drink Coke

Directory: /afs/cs.cmu.edu

No Plan

7. http://innovationnow.raeng.org.uk/innovations/default.aspx?item=158. http://www.rolls-royce.com/about/technology/systems_tech/

monitoring_systems.jsp

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 13: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

RETHINK BIG DATA

21

mittelt werden, liefert zusammen mit vielen anderen Nutzern dieDaten, mit denen die Fahrtrouten je nach Verkehrsfluss eingefärbtwerden, sobald man in der Anzeige den Layer »Verkehr« aktiviert hat.

Abbildung 1.4: Google Maps mit aktueller Verkehrslage

Die Daten werden dort erfasst, wo sie entstehen, und dorthin trans-portiert, wo sie benötigt werden.

Die Leistungsfähigkeit der heutigen Hard- und Software erlaubt esscheinbar, die ganze Welt zu digitalisieren und auf Knopfdruck abzu-speichern. Damit ist die Arbeit, nützliche Fakten von nutzlosen zutrennen, aber nicht erledigt, sondern nur nach hinten geschoben. Wirsuchen also nicht die Nadel im Heuhaufen und speichern diese dannab, sondern wir speichern den ganzen Heuhaufen und suchen dannnach der Nadel. Das ist so verrückt wie es sich anhört.

Wenn man beim Speichern der Daten nicht wählerisch ist, wird dieDatenmenge irgendwann doch zu einem Problem. Die Speicherungder Daten geschieht ja nicht nur einmal. Änderungen wollen aucherfasst werden, aber natürlich möchte man die vorherige Versionnicht verlieren. Und schon haben wir eine Historisierung, die Ihnenschnell zeigt, dass Speicherplatz noch nicht so billig ist, wie im Kon-text von Big Data immer behauptet wird.

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 14: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

22

Kapitel 1 – Big Hype

Gehen wir noch einmal zurück zu Captain Hornblower. Bei der Posi-tionsbestimmung mittels seines Sextanten über Sternmessung muss-te er sich erst zwei bis drei Fixsterne aussuchen und hat sie erst dannmit dem Sextanten angepeilt. Er hat also erst die Datenmengebeschränkt und dann mit der verbleibenden Datenmenge gearbeitet.Er hat seine Zeit nicht mit unwichtigen Daten vergeudet. Das ist auchheute noch die richtige Vorgehensweise, auch das CERN filtert zuerstdie Daten des Teilchenbeschleunigers und verarbeitet anschließenddas gefilterte Ergebnis.

1.6 Smart»Smart« als Adjektiv oder Vorsilbe hat so viele positive Bedeutungen,dass die smarteste Entsprechung im Deutschen »smart« ist. EinSmartphone kann mehr als nur telefonieren. Es unterstützt denBenutzer in vielen Situationen des täglichen Lebens, Tendenz stei-gend. Ein Smart Car nimmt die Umwelt mit Sensoren wahr undwarnt den Fahrer, wenn er kreuzende Fahrzeuge oder Fußgänger zuspät erkennt oder die Fahrspur nicht einhält. Es kommuniziert mitanderen Smart Cars, um vor Glätte oder Stau zu warnen oder gewarntzu werden. Smarte Produkte sind intelligent und vernetzt; sie machenunser Leben leichter. Ich bezweifle zwar, dass in nächster Zeit meineKaffeemaschine mit dem Küchenschrank über die Auswahl undZubereitung der Kaffeesorten diskutieren wird, aber das »SmartHome« hat es schon bis zur Marktreife geschafft. Auch hier ist diekluge Begriffswahl ein wichtiger Schritt zum Erfolg. »Smart Home«klingt viel cooler als »Hausautomatisierung«. Licht, Heizung undSonstiges aus der Ferne über das Smartphone zu bedienen, ist auchnicht schlecht, besonders in Verbindung mit den Fenster- und Tür-sensoren. So kann man im richtigen Moment das Licht ausschalten,damit der Einbrecher die Treppe herunterfällt. Smart Home allein zuHaus. Und falls es nicht der Einbrecher war, vergessen Sie nicht, IhrerHaushaltshilfe Blumen ins Krankenhaus zu schicken.

Der Fernzugriff auf das eigene Haus hat eher emotionalen Nutzen.Die typischen Fragen am ersten Urlaubstag, ob Licht/Herd/Wasch-maschine/Heizung etc. ausgeschaltet wurden, können endlich sicher

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 15: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

RETHINK BIG DATA

23

beantwortet werden, und eine vorgeheizte Wohnung nach dem Win-terurlaub fühlt sich auch besser an.

Auch die Hacker haben so eine neue Spielwiese. Wenn schon überInternet administrierbare Industrieanlagen Sicherheitslücken aufwei-sen9, dann liegt zumindest die Vermutung nahe, dass auch SmartHomes Schwachstellen haben könnten. Dem Nachbarn das Lichtauszuschalten, macht sicher Spaß, und die Einbrecher fühlen sichgleich besser, wenn sie nachsehen können, ob jemand zu Hause istund sie die Alarmanlage vorsorglich abschalten können.

Die Smart-Things im Consumermarkt erleichtern das Leben odermachen Spaß, aber man kommt mühelos ohne sie aus. SmarteLösungen werden an anderer Stelle viel dringender gebraucht.

1.6.1 Smart Port LogisticsHassen Sie es, lange vor einer roten Ampel zu stehen? Natürlich! Wiemuss es dann erst der Kapitän eines Containerschiffes hassen, langevor einer Klappbrücke zu warten?

Jenseits der Coolness und noch außerhalb der alltäglichen Sichtbar-keit arbeiten Experten an smarten Lösungen im weitaus größerenMaßstab, so wie im Hamburger Hafen. Gäbe es das Sprichwort »Zeitist Geld« noch nicht, an dieser Stelle würde es erfunden. Hier lässtsich Zeit in Geld umrechnen. Reedereien wissen, was ein Tag odereine Stunde Wartezeit eines Containerschiffs auf Abfertigung odereines leeren Kais bei Verspätung des Schiffes kostet. Jedes Mal, wennin einem so komplexen Logistikgebilde wie dem Hamburger Hafenirgendwer auf irgendwen warten muss, verlieren Firmen Geld. Finan-zieller Druck ist also vorhanden, und die simple Maßnahme des grö-ßeren Flächenausbaus steht nicht mehr zur Verfügung. IntelligenteMaßnahmen müssen her.

In einer Pressemitteilung10 der Hamburg Port Authority vom26.09.2012 mit Titel »Container schneller an Bord: Hamburg nimmt

9. http://heise.de/-185438510. http://www.hamburg-port-authority.de/de/presse/pressearchiv/Seiten/

Pressemitteilung-26-09-2012.aspx

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 16: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

24

Kapitel 1 – Big Hype

Kurs auf Hafen der Zukunft« wird der Erfolg des gemeinsamen Pilot-projekts »Smart Port Logistics« beschrieben. »In einer dreimonatigenTestphase wurden 30 LKW mit Tablet-PCs ausgerüstet und in SmartPort Logistics eingebunden.« Hafen TV steuert einen Videobericht11

bei und zeigt, »wie die moderne Technik im Arbeitsalltag von Spedi-tionen genutzt wird«.

Zwischen etwas Selbstbeweihräucherung wird dann die Dispositionder LKWs über Datenkommunikation gezeigt, inklusive Darstellungauf dem Ortungsbildschirm.

Derartige Lösungen gibt es seit annähernd 20 Jahren12. Den Nutzenfür die Disposition dürfte inzwischen auch die letzte Speditionbegriffen haben. Die früheren Dispositionslösungen mussten sichallerdings noch mit teuren und speziell gefertigten Endgeräten undmit Mobilfunknetzen herumschlagen, für die das InternetprotokollTCP/IP ein Fremdwort war. An weitere Integration mit anderenUnternehmen dachte wahrscheinlich noch niemand. Es gab kein flä-chendeckendes Internet, und die meisten kleinen Unternehmen hat-ten weder Internet noch Webpräsenz. Es ist das Konzept der Vernet-zung aller Komponenten wie LKWs, Eisenbahnen und Schiffe, wasden Hafen nach der Umsetzung zum Smart Port machen wird.

Eine Klappbrücke ist dann »smart«, wenn sie rechtzeitig hochfährt,weil sie schon vorher weiß, wann ein Schiff sie passieren möchte, undnicht erst, wenn das Schiff schon am Brückengeländer angehalten hatoder der Zeitplan es vorsieht. Smarte Containerschiffe, Züge undLKWs kommunizieren miteinander, damit keiner der am Frachtver-kehr Beteiligten unnötig warten muss und den anderen im Weg ist.Man mag über den ersten kleinen Schritt noch lächeln, aber nichtüber die Umsetzung des Gesamtkonzepts. Schon jetzt werden proJahr über 9 Millionen Container im Hamburger Hafen umgeschla-gen, und pro Tag passieren bis zu 40.000 LKW und 200 Züge dieHafenterminals. Das Ziel bis zum Jahr 2025 ist die Abfertigung vonca. 25 Millionen Containern pro Jahr.

11. http://www.hafen-hamburg.de/content/die-vernetzung-des-hafens-digitale-lösungen-für-einen-effizienten-fluss

12. http://www.transportmanagement24.com/de/

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 17: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

RETHINK BIG DATA

25

1.7 Eine neue Sicht auf den KundenIn B2C13-Märkten wurden Kunden bisher in Gruppen mit bestimm-ten Eigenschaften unterteilt. Das beruhte auf Erfahrung, Annahmen,Studien usw. Egal, was die Marktforschung anstellt, sobald man insDetail geht und Personen befragt, wird die Datenbasis sehr über-schaubar. Jede Umfrage kann nur eine Stichprobe sein, egal wie großdie Teilnehmerzahl ist. Auch die repräsentative Auswahl der Befrag-ten hat einen beträchtlichen Einfluss auf die Genauigkeit einerUmfrage14. Eine Umfrage mit sehr hoher Teilnehmerzahl kann imErgebnis weit neben der Realität liegen, wenn die Auswahl der Teil-nehmergruppen zu beschränkt ist15. Die bisherigen Möglichkeiten,auch der Kombination verschiedener Einzelstudien oder Umfragen,sind bereits ausgereizt, auch wenn man damit schon zu erstaunlichenErgebnissen kommen kann. Wenn Sie diese auf eine gesamte Kun-dengruppe hochprojizieren, werfen Sie viele (potenzielle) Kunden »ineinen Topf«. Marketingmaßnahmen, die auf Kundengruppen zielen,wie Fernsehwerbung und Printanzeigen, arbeiten nach dem Gießkan-nenprinzip. Vielleicht kommt die Werbung noch bei der angepeiltenKundengruppe an, aber was ist mit Kundengruppen, von denen Sienoch nichts wissen, für die Ihre Produkte aber attraktiv wären?

Die aktuellen Möglichkeiten der IT, mit oder ohne Big Data-Plakette,gestatten es, sich von der Stichprobe zu verabschieden und den Kun-den als Individuum zu sehen. Einem Individuum können sie mehrund präziser definierte Eigenschaften zuordnen als einer Kunden-gruppe. Sie können unterschiedliche Datenbestände kombinierenund ihre schon vorhandenen und neuen Kunden besser kennen ler-nen als je zuvor. Über die Eigenschaften der Individuen können Sietatsächliche Kundengruppen ausfindig machen. Diese Ergebnisseberuhen auf der gesamten Datenbasis aller möglichen Kunden undentstammen – als reale Fakten – der Praxis. Die bisherige Marktfor-schung ist damit verglichen nur Theorie.

13. Business to Consumer14. http://www.sdi-research.at/aktuell/wissen/repraesentativitaet.html15. http://www.bidmon.de/blog/2010/03/studien-hohe_teilnehmerzahl-

repraesentativ-html/

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452

Page 18: Rethink Big Data - beckassets.blob.core.windows.net · Big Data-Anwendungen und -Technologien (und sonstige Buzz-words) eingeordnet. Einzelne Punkte wie beispielsweise Predictive

26

Kapitel 1 – Big Hype

Auch im Webshop kann man besser auf den einzelnen Kunden ein-gehen, als nur Bestellungen entgegenzunehmen. Amazon macht esseit Jahren vor. Wenn Sie sich ein Buch auch nur ansehen, bietet Ama-zon Ihnen weitere Bücher an,

• die andere Kunden sich vor oder nach diesem Buch angesehenhaben,

• die andere Kunden gekauft haben, nachdem sie dieses Buchangesehen haben,

• die oft mit diesem Buch zusammen gekauft wurden.

Muss man das jetzt unbedingt Big Data nennen?

© des Titels »RETHINK BIG DATA« (ISBN 978-3-8266-9452-3) 2013 by Verlagsgruppe Hüthig Jehle Rehm GmbH, Heidelberg.

Nähere Informationen unter: http://www.mitp.de/9452