5
demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen. Abbildung 1 zeigt das Verhältnis zwischen der Analyse- komplexität und dem daraus generierten Mehrwert. Der Wert an gewonnenen Informationen steigt parallel mit der Analysekomplexität der Rohdaten an [SCN13]. Die folgenden Beispiele zeigen, wie Unternehmen die Potenziale, die sich hinter der Kombination von Predictive Analytics und der technischen Realisierung eines Prozesses, in Echtzeit Entscheidungen zu treffen, verbergen, bereits er- folgreich ausschöpfen. Â Â E-Commerce: Amazon befasste sich schon sehr früh mit der Frage, wie aus Daten Informationen und anschlie- ßend Mehrwert generiert werden können. Seine Emp- fehlungs-Engine verschaffte dem Online-Versandhändler einen starken Umsatzzuwachs bei sehr niedrigen Ak- quisitionskosten. Laut Unternehmensbericht betrug der zusätzlich generierte Umsatz durch die Empfehlungs- Engine 30 Prozent [Exp13]. In dem Zusammenhang fand „n = all“ – Anforderungen der heutigen Wirtschaft Die Anforderungen der Wirtschaft an große Datenmengen sind heute komplexer und umfangreicher als zur Jahrtau- sendwende. In der Praxis erleben wir diese als die bekann- ten „3V’s“ von Big Data: Volume, Velocity und Variety, also das hohe Datenvolumen, die Geschwindigkeit, mit der diese Daten generiert werden, sowie die Vielfalt dieser Daten und ihrer Quellen. Hinzu kommt, dass sich neben klassischen Fragestellungen, die sich mit vergangenen Ereignissen reak- tiv befassen, immer stärker ein neuer, proaktiver Zweig der Datenanalytik etabliert: Advanced Analytics. Advanced Analytics ist ein Oberbegriff, unter dem sich viele Analytics-Richtungen zusammenfassen lassen, unter anderem auch Predictive Analytics. Der Umfang von Ad- vanced Analytics reicht von Bilderkennung und Bildklassi- fizierung über semantische Auswertung von Texten bis zur prädiktiven Modellierung von Zusammenhängen. Sie ist Die konsequente Antwort auf Big Data Advanced Analytics Die META Group, die jetzt zu Gartner gehört, sprach bereits Ende der 1990er-Jahre über „Data Deluge“ [Mar12] und beschrieb damit einen Trend im Versandhandel. Diese Branche verzeichnete damals einen großen Anstieg an Datenvolumen. Komplexe Auswertungen des Kundenverhaltens konnten mit den verfügbaren Technologien und Speicherkapazitäten nur schwer bewerkstelligt werden. Am 6. Februar 2001 veröffentlichte Doug Laney als Analyst der META Group das Paper „3D Data Management: Controlling Data Volume, Velocity and Variety“ [Lan01]. Die Anfor- derung, große Datenvolumen zu speichern und diese in kurzer Zeit auszuwerten, wurde darin offiziell definiert. Abb. 1: Predictive Analytics ermöglicht Operational Insights (nach [SCN13]) ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 01 FACH ARTIKEL

Die konsequente Antwort auf Big Data Advanced Analytics · demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen. Abbildung 1 zeigt das Verhältnis zwischen der Analyse

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Die konsequente Antwort auf Big Data Advanced Analytics · demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen. Abbildung 1 zeigt das Verhältnis zwischen der Analyse

demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen.

Abbildung 1 zeigt das Verhältnis zwischen der Analyse­komplexität und dem daraus generierten Mehrwert. Der Wert an gewonnenen Informationen steigt parallel mit der Analysekomplexität der Rohdaten an [SCN13].

Die folgenden Beispiele zeigen, wie Unternehmen die Potenziale, die sich hinter der Kombination von Predictive Analytics und der technischen Realisierung eines Prozesses, in Echtzeit Entscheidungen zu treffen, verbergen, bereits er­folgreich ausschöpfen.ÂÂ E-Commerce: Amazon befasste sich schon sehr früh mit der Frage, wie aus Daten Informationen und anschlie­ßend Mehrwert generiert werden können. Seine Emp­fehlungs­Engine verschaffte dem Online­Versandhändler einen starken Umsatzzuwachs bei sehr niedrigen Ak­quisitionskosten. Laut Unternehmensbericht betrug der zusätzlich generierte Umsatz durch die Empfehlungs­Engine 30 Prozent [Exp13]. In dem Zusammenhang fand

„n = all“ – Anforderungen der heutigen Wirtschaft

Die Anforderungen der Wirtschaft an große Datenmengen sind heute komplexer und umfangreicher als zur Jahrtau­sendwende. In der Praxis erleben wir diese als die bekann­ten „3V’s“ von Big Data: Volume, Velocity und Variety, also das hohe Datenvolumen, die Geschwindigkeit, mit der diese Daten generiert werden, sowie die Vielfalt dieser Daten und ihrer Quellen. Hinzu kommt, dass sich neben klassischen Fragestellungen, die sich mit vergangenen Ereignissen reak­tiv befassen, immer stärker ein neuer, proaktiver Zweig der Datenanalytik etabliert: Advanced Analytics.

Advanced Analytics ist ein Oberbegriff, unter dem sich viele Analytics­Richtungen zusammenfassen lassen, unter anderem auch Predictive Analytics. Der Umfang von Ad­vanced Analytics reicht von Bilderkennung und Bildklassi­fizierung über semantische Auswertung von Texten bis zur prädiktiven Modellierung von Zusammenhängen. Sie ist

Die konsequente Antwort auf Big Data

Advanced Analytics Die META Group, die jetzt zu Gartner gehört, sprach bereits Ende der 1990er-Jahre über „Data Deluge“ [Mar12] und beschrieb damit einen Trend im Versandhandel. Diese Branche verzeichnete damals einen großen Anstieg an Datenvolumen. Komplexe Auswertungen des Kundenverhaltens konnten mit den verfügbaren Technologien und Speicherkapazitäten nur schwer bewerkstelligt werden. Am 6. Februar 2001 veröffentlichte Doug Laney als Analyst der META Group das Paper „3D Data Management: Controlling Data Volume, Velocity and Variety“ [Lan01]. Die Anfor-derung, große Datenvolumen zu speichern und diese in kurzer Zeit auszuwerten, wurde darin offiziell definiert.

Abb. 1: Predictive Analytics ermöglicht Operational Insights (nach [SCN13])

ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0101 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS

FACHARTIKEL

Page 2: Die konsequente Antwort auf Big Data Advanced Analytics · demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen. Abbildung 1 zeigt das Verhältnis zwischen der Analyse

Amazon heraus, dass bereits ein Mehr an Latenz von 100 Millisekunden den Umsatz in der Summe um ein Prozent schrumpfen lässt [Ala14].ÂÂ Predictive Maintenance: Daimler setzt auf Predictive Analytics in der Produktion von Zylinderköpfen. Wäh­rend des gesamten Produktionsprozesses gibt es pro Zy­linderkopf ca. 500 Attribute, die von Sensoren erfasst und ausgewertet werden, um mögliche zukünftige Störungen und Wartungsbedarfe vorherzusagen. Durch den Einsatz von Predictive Analytics konnte Daimler die Produktivi­tät um ca. 25 Prozent steigern [Bur14].ÂÂ Fraud Prevention: Der Finanz­ und Versicherungssek­tor gehört bei der Anwendung von Predictive Analytics generell zu den Vorreitern. Hier geht es zum Beispiel um betrügerische Transaktionen, ein großes Problem, das konkrete Kosten verursacht. Finanzdienstleister bauen deshalb an Scoringsystemen, die Transaktionen in Echtzeit bewerten und sogar selbst entscheiden kön­nen, ob eine Transaktion valide ist oder ob sie manuell überprüft werden sollte. Anhand eines solchen Falles zeigen wir später noch, wie mit Hilfe von Big­Data­Technologien eine Skalierung erreicht werden kann, die für die großen Datenmengen und die hohe Ent­scheidungsgeschwindigkeit bei der Betrugsprävention notwendig ist.

Alle drei Beispiele haben eine gemeinsame Komponente: Immer geht es um Vorgänge, die entweder parallel zu einem auslösenden Event ausgeführt werden oder sogar eine pro­aktive Aktion auslösen. Durch die Skalierbarkeit von Pro­zessen, die für die Datenanalyse seit Jahrzehnten bekannte mathematische Verfahren nutzen, entstehen unter der Be­zeichnung Advanced Analytics neue Themengebiete. Sie eröffnen neue Analysemöglichkeiten, mit denen Anwender nicht nur vergangene Prozesse erklären, sondern auch einen Blick in die Zukunft werfen können.

Kriterium Business Intelligence Advanced AnalyticsOrientierung Vergangenheit Vergangenheit & ZukunftMethoden Reporting (KPIs/Metriken)

Dashboards/ScorecardsOLAPAd-hoc-Abfrage

Predictive ModelingData MiningBildanalytikQuantitative Analyse

Datentypen Strukturiert & semistrukturiert Strukturiert & unstrukturiertGenerierung von Insights Manuell AutomatischAnwender Business-Anwender Data Scientists, Analysten, Business-AnwenderAktionsrichtung Reaktiv Proaktiv

Abb. 2: Technisches Vorgehen beim „überwachten Lernen“ (Supervised Learning)

Advanced Analytics versus klassische BIDie Verfahren von Advanced Analytics unterscheiden sich we­sentlich von denen der klassischen BI­Analysewerkzeuge. Die meisten BI­Tools nutzen Batch­basierte Analysen, die in fest definierten Zeiträumen ablaufen und damit lediglich vergan­gene Geschehnisse in den Blick nehmen können und deskrip­tiv beschreiben. Bei Advanced Analytics werden zusätzlich zu den historischen Daten Echtzeit­Daten einbezogen. Damit werden die Analyseergebnisse genauer und die Vorhersagen können permanent an die aktuelle Situation angepasst werden.

Tabelle 1 zeigt, wie divergent Methoden, die den Schlag­wörtern BI und Advanced Analytics zugeordnet werden, in der Praxis laufen.

Predictive Analytics Die Mathematik hinter Predictive Analytics ist wie schon gesagt nicht neu. Es werden Verfahren eingesetzt, die zum Teil noch aus dem letzten Jahrhundert stammen wie zum Beispiel SVM, Naive Bayes, Decision Trees, logistische oder lineare Regressionsmodelle. Werden jedoch Kompo­nenten aus den heutigen Marktanforderungen hinzugerech­net, wie das Datenvolumen und die Datengeschwindigkeit, dann müssen die Prozesse zur Anwendung mathematischer Verfahren skalierbar gemacht werden.

Die Eigenschaften von Ereignissen oder Objekten – in unserem nachfolgenden Beispiel wäre dies das binäre La­bel einer Kreditkartentransaktion „Betrugsfall“ oder „kein Betrugsfall“ – werden beim Predictive Modeling verwendet, um ein Modell zu trainieren. Beim Predictive Modeling han­delt es sich um einen Prozess, in dem anhand von mathema­tischen Verfahren und den Eigenschaften von Ereignissen oder Objekten ein möglichst genaues Abbild der Realität modelliert wird und darauf basierend unbekannte Ereignisse

Tab. 1: Divergenz von Methoden unter den Schlagwörtern BI und Advanced Analytics (nach: [Rap16])

ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0302 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS

FACHARTIKEL

Page 3: Die konsequente Antwort auf Big Data Advanced Analytics · demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen. Abbildung 1 zeigt das Verhältnis zwischen der Analyse

vorgelegt, von denen etwas mehr als 1.000 als Betrugsfäl­le gemeldet wurden. Aus diesen Daten berechneten wir die Realpotenziale für die Vorhersage und die Verhinderung sol­cher Fälle. Auf diese Weise konnten wir herausfinden, wie groß der Schaden sein wird, der dem Unternehmen durch Betrugsfälle entsteht, die nicht oder falsch ermittelt werden (false negative). Ebenso konnten wir feststellen, wie hoch die Opportunitätskosten sein werden, also der Schaden, der durch fälschlich unterbundene Transaktionen (false positive) entsteht. In unserem Fall betrugen Letztere ca. 2 Prozent der Buchungssumme. Abbildung 3 zeigt die Ergebnisse der trai­nierten Modelle für diese Vorhersage und vergleicht die Er­gebnisse mit den Kosten, die dem Unternehmen zusätzlich entstehen.

Für eine Aufgabenstellung wie diese eignen sich meh­rere Verfahren, zum Beispiel SVM, Naive Bayes, Regressi­onsverfahren, aber auch Entscheidungsbäume. Verschiede­ne Verfahren wurden in mehreren Trainings­ und Testläufen miteinander verglichen. ÂÂ Beim SVM mit SGD (Stochastic Gradient Descent) sowie mit dem Broyden­Fletcher­Goldfarb­Shanno­(BFGS­)Kernel fiel in allen Testdurchläufen eine Anomalie auf: Die Klassifikation blieb über alle Testreihen unverändert auf dem Niveau der Null­Hypothese. Ein anderer linearer Kernel konnte noch nicht verprobt werden, da die größe­re Auswahl erst ab Spark Version 2.0 verfügbar ist. Diese ist momentan jedoch noch nicht stabil. ÂÂ Naive Bayes hat schlechte Resultate geliefert. Rückbli­ckend lässt sich das folgendermaßen erklären: Der Fea­ture­Raum in der behandelten Problemstellung gibt nicht genügend Anhaltspunkte her, um ein robustes Naive­Bayes­Modell zu trainieren. Außerdem kann dieses kei­ne Interaktionen zwischen den Features „lernen“. Naive Bayes entfaltet seine Stärke eher beim Klassifizieren von Dokumenten, zum Beispiel bei einer Sentiment­Analyse [Che16].ÂÂ In der Testreihe erzielten die Entscheidungsbäume sowie ein ähnliches Verfahren, „Random Forests“, die besten Ergebnisse. Das lag vor allem daran, dass sich die Zu­

klassifiziert werden. Mit Hilfe eines solchen Modells kön­nen die Labels bzw. kann die „Klassifikation“ unbekannter Ereignisse anhand ihrer Eigenschaften vorhergesagt wer­den. Daher werden Verfahren, die unbekannte Ereignisse einem Label zuordnen, auch unter dem Begriff „Classifier“ zusammengefasst [Che16].

Classifier können durch überwachtes Lernen trainiert werden [Klo15]. Dafür werden zuerst Features aus den Zieldaten extrahiert, die für das Training genutzt werden sollen. Dieser Schritt wird in der Fachliteratur als „Feature Engineering“ bezeichnet. Mit Feature Engineering lassen sich Rohdaten in Features transformieren, die das zugrunde liegende Problem für den Prädiktionsalgorithmus besser re­präsentieren. Dieses Verfahren beeinflusst die Qualität des Modells (Modellgüte) und ist daher bei diesem Vorgehen zwingend erforderlich [Gut15].

Für das eigentliche Training des Modells wird die Men­ge aller vorverarbeiteten Transaktionen zunächst in Trai­ningsdaten und Testdaten aufgeteilt. So kann das trainierte Modell später mit ihm unbekannten Daten konfrontiert und die Klassifizierung bis dahin unbekannter Transaktionen überprüft, die Vorhersagen mit den echten Features ver­glichen und die Modellgüte bestimmt werden (siehe Ab­bildung 2). Die verschiedenen Algorithmen zur Erstellung eines Modells aus einem Trainingsdatensatz werden als „Estimators“ bezeichnet. Zu jedem Estimator existiert ein korrespondierender Transformer. Ein Transformer verwen­det das vom Estimator trainierte Modell, um Vorhersagen für ein Featureset zu treffen [Apa16].

Skalierbarkeit in der PraxisUm große Datenmengen für Vorhersagen nutzen zu können, müssen die bisherigen Verfahren skaliert werden. Doch wie sieht Skalierbarkeit in der Praxis aus? Betrachten wir dazu ein einfaches Betrugserkennungssystem, das mit Hilfe von Spark MLlib trainiert wurde [Git16].

Dem System haben wir in einem aktuellen Projekt einen Datensatz von einer Viertelmillion Kreditkartenbuchungen

Abb. 3: Performance-Test und Auswahl eines geeigneten Verfahrens

ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0302 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS

FACHARTIKEL

Page 4: Die konsequente Antwort auf Big Data Advanced Analytics · demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen. Abbildung 1 zeigt das Verhältnis zwischen der Analyse

sammenhänge in den Daten gut mit dem Regelwerk eines Entscheidungsbaums abbilden lassen.

Das Fallbeispiel verdeutlicht, dass neben der Auswahl des Estimators und der Ausgestaltung der für das Training ver­wendeten Features die Parametrisierung der Estimators ei­ne große Rolle spielt. So führen unterschiedliche Terminie­rungsregeln für Entscheidungsbäume, wie zum Beispiel die maximale Baumtiefe, oder ein unterschiedlicher Threshold bei Regressionsverfahren zu sehr unterschiedlichen Model­len mit ebenso unterschiedlicher Güte.

Solche Optimierungsprobleme können spätestens jetzt durch Ausprobieren möglicher Kombinationen in „Brute­Force“­Manier angegangen werden. Die Rechenleistung heutiger Server­Infrastrukturen macht dies möglich. Zu­dem können die benötigten mathematischen Verfahren über Technologien wie Spark oder Flink in Rechen­Clustern ver­teilt angewendet werden. Steht ausreichend Rechenleistung zur Verfügung, können eine Vielzahl an Modellen in kurzer Zeit unter Nutzung unterschiedlicher Estimators und Para­metrisierungen ausprobiert werden.

Durch die Möglichkeit, die Modellgüte quantitativ zu bewerten, bietet sich für die Optimierung ein maschinelles „Ausprobieren“ geeigneter Modellparameter an. Auch die Kombination mehrerer Modelle zur Vorhersage (Ensem­bles), bei der zwei Modelle, die für sich allein „schlechte“ Vorhersagen liefern, so kombiniert werden, dass sie gemein­sam ein „gutes“ Modell ergeben, ist meist durch maschinel­les Ausprobieren mit großer Rechenleistung deutlich effizi­enter als durch Menschenhand.

Integration in die bestehende Aufbau- und Ablauforganisation Advanced Analytics beinhaltet Verfahren, die üblicherwei­se mit der Rolle des Data Scientist und der Methode zur explorativen Analyse in Verbindung gebracht werden. Die explorative Analyse ist beispielsweise eine Methode, die

nach dem „fail early“­Paradigma die effiziente Verprobung fachlicher Hypothesen ermöglichen soll. Denn die Anforde­rungen des Fachbereichs an Datenanalysen der IT wandeln und erweitern sich meist schneller als die betriebsfokussier­ten Softwareentwicklungsprozesse in den IT­Abteilungen, die diese bedienen. Zudem ist oftmals vom Zeitpunkt der Anforderung bis zum Beginn der Umsetzung der wahre Nutzen der Hypothese unklar oder nicht ausreichend, um den Aufwand für die Einführung zu rechtfertigen. Daher ist Advanced Analytics ein Paradebeispiel für die „IT der zwei Geschwindigkeiten“ [Pic16].

Im Rahmen des Big­Data­Hypes sind aus diesen zwei Geschwindigkeiten Definitionen für die agile Plattform der Datenanalysten entstanden, das „Data Lab“, und die hoch­skalierbare operative Plattform des Betriebs, die „Data Fac­tory“ (siehe Tabelle 2).

Das Data Lab ist eine skalierbare Daten­ und Verarbei­tungsplattform, auf der Analysten Hypothesen mit produk­tiven (bzw. produktionsnahen) Daten verproben können. Aus diesem Grund wird das Data Lab auch häufig auf der gleichen physikalischen Infrastruktur betrieben wie das Pro­duktivsystem. Für die Verprobung neuer Hypothesen sind Daten, die durch operative Datenbewirtschaftungsprozesse bereitgestellt werden, jedoch häufig nicht ausreichend, so­dass der Analyst in der Lage sein muss, selbstständig Daten­quellen hinzuzufügen.

Damit die Modelle, die im Data Lab trainiert wurden, sowie die Skripte zur Vorverarbeitung neuer Datenquellen in den operativen Betrieb der Data Factory übergehen kön­nen, werden diese, sobald sie den notwendigen fachlichen Reifegrad erreicht haben, an die IT­Abteilung übergeben. Diese integriert die Modelle und Datentransformationen in die operativen Anwendungen und baut automatisierte Datenbewirtschaftungsstrecken für die neu hinzugefügten Datenquellen.

Der Weg von einer fachlichen Hypothese zum produk­tiven Advanced­Analytics­Verfahren verläuft demnach ent­

lang zweier Achsen (siehe da­zu auch Abbildung 4): ÂÂ zum einen entlang

der technischen Achse, die den Prozess der Softwareent­wicklung und des Testings der Entwicklungs­ zur Produkti­onsumgebung abbildet, ÂÂ zum anderen entlang

der fachlichen Achse, die Hy­

Kriterium Data Lab Data FactoryZiel Generierung von Insights Monetarisierung von InsightsZugang Für Analysten Für automatisierte ProzesseEntwicklungsstil „Fail early“ BetriebsfokussiertMachine Learning Training und Otimierung von

ModellenNutzt Modelle in operativen Prozessen

Datenbasis (Synonymisierte) Produktivdaten Produktivdaten

Tab. 2: Vergleich von Data Lab und Data Factory

Abb. 4: Datenbe-wirtschaftung und Zugriff von Data Lab und Data Factory

ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0504 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS

FACHARTIKEL

Page 5: Die konsequente Antwort auf Big Data Advanced Analytics · demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen. Abbildung 1 zeigt das Verhältnis zwischen der Analyse

pothesen und Vorverarbeitungsprozesse auf unterschied­lichen Ständen voneinander abgrenzt.

Für die Verprobung der Hypothese werden sowohl produk­tiv bewirtschaftete Daten (Data Factory), in technischer Ver­probung befindliche Daten (Transition) als auch ad hoc hin­zugefügte Daten (Data Lab) benötigt. Im Data Lab werden diese Datenschichten zur Analyse vermischt, beeinflussen die inneren (produktiv genutzten) Daten jedoch nicht. Für den produktiven Einsatz ist es wichtig, dass die produktiven Daten der Data Factory von anderen Daten aus dem Analy­seprozess unbeeinflusst bleiben. Damit trotz dieser Isolation eine Verprobung der Hypothese nah an der produktiven Um­gebung stattfinden kann, bietet es sich umso mehr an, Data Lab und Data Factory auf der gleichen Plattform zu betrei­ben und die Datentrennung lediglich logisch vorzunehmen.

FazitWer Advanced Analytics aus den Laborumgebungen und den Büros der Analysten herausholen und für produktive Prozesse nutzbar machen will, muss sich über die Abläufe und Schnittstellen zwischen IT­ und Analyseteams in seinem Unternehmen sowie über den Set­up seiner Datenplattform Gedanken machen.

Die modernen Skalierungs­Frameworks lassen sich be­reits beliebig horizontal skalieren. Bei einigen Deep Lear­ning Frameworks im Bereich Advanced Analytics zeichnet sich zudem die Möglichkeit ab, Berechnungen vertikal über GPUs zu skalieren. So werden Analysen von extrem großen Datenmengen möglich. Google und Co. machen es bereits vor und erweitern die Domäne der Advanced Analytics um Sprachanalyse und Bildbeschreibung. Es bleibt spannend ...

[ Literatur ][Ala14] Alam, M. et al.: Oracle NoSQL Database: Real-Time Big Data Management for the Enterprise. McGraw-Hill Publications 2014

[Apa16] Apache Spark MLlib: http://spark.apache.org/mllib/, abgerufen am 15.9.2016[Bur14] Burdeska, T.: Predictive Maintenance bei Daimler. http://www.it-zoom.de/it-director/e/predictive-mainte nance-bei-daimler-9387/, abgerufen am 20.10.2016[Che16] Chen, E.: Choosing a Machine Learning Classifier. http://blog.echen.me/2011/04/27/choosing-a-machine-learning-classifier/, abgerufen am 29.9.216[Exp13] Recommendation engines: What’s in Pandora’s Box? http://www.experian.com.au/blogs/marketing-forward/2013/01/17/recommendation-engines-whats-in-pandoras-box/, abgerufen am 12.9.2016[Gut15] Gutierrez, D. D.: Machine Learning and Data Sci-ence: An Introduction to Statistical Learning Methods with R. Technics Publications 2015[Klo15] Klose, O.: Machine Learning (2) – Supervised ver-sus Unsupervised Learning. http://oliviaklose.com/machi ne-learning-2-supervised-versus-unsupervised-learning/, abgerufen am 29.9.2016[Lan01] Laney, D.: 3D Data Management: Controlling Data Volume, Velocity and Variety. Meta Group 2001[Mar12] Martin, W.: Strategic Bulletin – Big Data. Dr. Wolf-gang Martin Team Sarl, 2012[Pic16] Pickert, F.: Digitale Prozesse in einer IT der zwei Geschwindigkeiten. https://fh-muenster.de/ipl/down loads/03_IPL-Praxisforum_IT_zwei_Geschwindigkeiten_ Pickert.pdf, abgerufen am 20.9.2016[Rap16] Rapidminer, https://rapidminer.com/resource/introduction-advanced-analytics/, abgerufen am 12.9.2016[SCN13] SAP Community Network, Predictive Analysis Enables Operational Insights. http://scn.sap.com/communi ty/utilities/blog/2013/03/05/predictive-analysis-enables-operational-insights, abgerufen am 12.9.2016

[Git16] Die Implementierung des behandelten Beispiels steht auf github zur Verfügung: https://github.com/cthom sen/sparkmllib-credit-card-fraud, abgerufen am 29.9.2016

Dimitri Gross arbeitet als Senior Consultant bei OPITZ CONSULTIG Deutschland GmbH. Als Kernteam-Mitglied im Com-petence Center Big Data beschäftigt er sich mit Big-Data-Architektur, Werkzeugauswahl, Lösungsdesign und Aufbauorga-nisation in Big-Data-Projekten und unterstützt seine Kunden darüber hinaus in analytischen Fragestellungen. E-Mail: [email protected] Christopher Thomsen arbeitet als Senior Consultant bei OPITZ CONSULTING Deutschland GmbH. Als Gründungsmit-glied des Kernteams des Big Data Competence Center beschäftigt er sich seit einigen Jahren mit den Herausforderungen der Massendatenverarbeitung und -analyse und entwirft und implementiert zusammen mit Kunden individuelle Lösun-gen. Sein technischer Schwerpunkt liegt in der Umsetzung skalierbarer Applikationen und Datenverarbeitungsplattfor-men. E-Mail: [email protected]

ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0504 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS

FACHARTIKEL