44
BI und Analytics Ralf Finger (Hrsg.) Ein Überblick in der Cloud

Ralf Finger (Hrsg.) BI und Analytics in der Cloud - dpunkt.de und Analytics in der... · 2 1 Cloud-BI und Analytics – eine Einführung Ralf Finger, Uwe Müller, INFORMATION WORKS

Embed Size (px)

Citation preview

BI und Analytics Ralf Finger (Hrsg.)

Ein Überblickin der Cloud

Editi

on T

DWI

Wieblinger Weg 17 • 69123 Heidelbergfon: 0 62 21 / 14 83 40 • fax: 0 62 21 / 14 83 99e-mail: [email protected] • www.dpunkt.de

Tom Gansor, Andreas Totok

Von der Strategie zum Business Intelligence Competency Center (BICC)Konzeption – Betrieb – Praxis2., überarbeitete und aktualisierte Auflage

2015, 446 Seiten, Festeinband € 69,90 (D) / ISBN 978-3-86490-043-3

Stephan Trahasch, Michael Zimmer (Hrsg.)

Agile Business IntelligenceTheorie und Praxis

2016, 300 Seiten, Festeinband € 59,90 (D) / ISBN 978-3-86490-312-0

Herbert Stauffer, Beat Honegger, Hanspeter Gisin

Testen von Data-Warehouse- und Business-Intelligence-SystemenVorgehen, Methoden und Konzepte

2014, 268 Seiten, Festeinband € 69,90 (D) / ISBN 978-3-86490-072-3

Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi

Datenqualität erfolgreich steuernPraxislösungen für Business-Intelligence-Projekte3., überarbeitete und erweiterte Auflage

2015, 390 Seiten, Festeinband € 69,90 (D) / ISBN 978-3-86490-042-6

Agile BusinessIntelligence

Datenqualität erfolgreich steuern

Von der Strategie zum Business Intelligence

Competency Center (BICC)

Testen von Data-Warehouse-

und Business-Intelligence-Systemen

Ralf Finger (Hrsg.)

BI und Analytics in der Cloud Ein Überblick

Dr. Ralf Finger, Uwe Müller INFORMATION WORKS GmbH{r.finger, u.mueller}@information-works.de

Stefan Kirner inovex [email protected]

Dr. Henning Baars Universität StuttgartBetriebswirtschaftliches [email protected]

Siegfried Höck, Dimitri Gross OPITZ CONSULTING Deutschland GmbH{Siegfried.Hoeck, Dimitri.Gross}@opitz-consulting.com

Hans W. Krefeld, Kerstin Podlinski TIMETOACT GROUP{hans.krefeld, kerstin.podlinski}@timetoact.de

Markus Enderlein INFOMOTION [email protected]

1. Auflage 2017Copy Editing: Ursula Zimpfer, HerrenbergSatz und Herstellung: Frank HeidtUmschlaggestaltung: Anna Diechtierow, HeidelbergDruck: www.wp-consult.euArtikel-Nr. 077.95745

Copyright © 2017 dpunkt.verlag GmbHWieblinger Weg 1769123 Heidelberg

Die vorliegende Publikation ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Verwendung der Texte und Abbildungen, auch auszugsweise, ist ohne die schriftliche Zustimmung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Vervielfältigung, Übersetzung oder die Verwendung in elektronischen Systemen.Es wird darauf hingewiesen, dass die im Buch verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken- oder patentrechtlichem Schutz unterliegen.Alle Angaben und Programme in diesem Buch wurden mit größter Sorgfalt kontrolliert. Weder Autor noch Verlag können jedoch für Schäden haftbar gemacht werden, die in Zusammenhang mit der Verwendung dieses Buches stehen. 5 4 3 2 1 0

TDWI Germany e.V.c/o SIGS-DATACOM GmbHLindlaustraße 2c53842 Troisdorfwww.tdwi.eu

Vorwort

Cloud Computing setzt sich zunehmend durch. Schon heute wird bei neuen IT-Investitionen immer auch die Cloud als Sourcing-Option of-fen diskutiert. Auch im Kontext von Business Intelligence und Analytics (BIA) gibt es viele gute Gründe für die Cloud. So ist ein wichtiger Nutzen der Cloud auch hier die Flexibilität. Infrastrukturen und Anwendungen mit reichhaltiger Funktionalität und hoher Skalierbarkeit stehen in der Cloud mit einem Mausklick zur Verfügung. Diese umfassen die ganze Bandbreite von BIA, angefangen von Reporting über Planungsanwen-dungen bis hin zu Predictive Analytics und Big Data. Sprungfixe Kosten entfallen, stattdessen können BIA-Lösungen nutzungsabhängig bezahlt werden. Vor diesem Hintergrund scheint der Siegeszug von BIA in der Cloud unaufhaltsam.

Dennoch bleibt eine Reihe wichtiger Fragen offen. Typischerweise haben Anwenderunternehmen heute im Schwerpunkt eigene BIA-Infra-strukturen. Wie lassen sich diese mit der Cloud im Sinne einer hybriden Architektur verbinden? Auch ist zu klären, ob die Cloud tatsächlich so günstig ist, wie es scheint. Wann rechnet sich eigentlich die Cloud? Und auch die Themen Datenschutz und Datensicherheit sind zu bedenken. Welche Regularien, technologischen Möglichkeiten und Qualitätsstan-dards sind zu beachten, wenn BIA in die Cloud verlagert wird?

Ich freue mich, dass es mit dieser Publikation gelungen ist, diesen und weiteren Fragen nachzugehen. Hierfür danke ich insbesondere den Au-toren, die durch ihre fundierten Beiträge die Grundlage für eine breitere Diskussion im Rahmen des TDWI e.V. gelegt haben.

Viel Spaß beim Lesen!

Ralf FingerKöln, im Mai 2017

2

1 Cloud-BI und Analytics – eine Einführung

Ralf Finger, Uwe Müller, INFORMATION WORKS GmbH

Um die Konsequenzen und Vorteile einer Verlagerung von Business Intelligence und Analytics (BIA) in die Cloud zutreffend abzuschätzen, ist zunächst ein präzises Begriffsverständnis von Cloud Computing notwendig. Wie so oft bei neuen Tech-nologietrends vermischen sich auch beim Thema Cloud die tatsächlichen Eigen-schaften von Cloud Computing mit dem nicht gerade transparenzfördernden Mar-ketinggetöse der Anbieter. Doch nur, wenn die tatsächlichen Sourcing-Optionen von Cloud sauber beschrieben und in ihren konkreten Auswirkungen klar definiert sind, lässt sich eine Strategie für Cloud Computing ableiten.

1.1 Was ist Cloud Computing?

Cloud Computing bezeichnet IT-Infrastrukturen (u.a. Rechenkapazität, Datenspeicher, Datensicherheit, Netzkapazitäten, Entwicklungsplattfor-men oder auch einsatzbereite Software), die entfernt über ein Netzwerk bereitgestellt werden und i.d.R. in hohem Maße Mechanismen der Virtu-alisierung von IT-Ressourcen nutzen. Die Bereitstellung von Cloud Com-puting kann als Public Cloud über öffentliche Netze und in mehrman-dantenfähigen Umgebungen erfolgen. Auch ist der Aufbau von Cloud-Infrastrukturen in privaten Rechenzentren der Anwenderorganisationen möglich. Letzteres wird als »Private Cloud Computing« bezeichnet, wo-bei hier die Übergänge zu klassischen Formen des Outsourcings fließend sein können. In Abgrenzung zu Cloud werden eigene Infrastrukturen beim Anwender als »On-Premises« bezeichnet.

Business Intelligence und Analytics kann heute vollständig in der Cloud betrieben werden.

Cloud-BI und Analytics – eine Einführung 3

1.2 Servicemodelle in der Cloud

Eine mögliche Gliederung von Cloud Computing ist die Klassifikation nach dem Servicemodell. Im Einzelnen werden typischerweise die folgen-den Servicemodelle unterschieden:

TT Infrastructure as a Service (IaaS)TT Platform as a Service (PaaS)TT Software as a Service (SaaS)

Jedes Servicemodell bietet eine unterschiedlich weit gehende Servicetiefe, mit der IT-Leistungen in der Cloud bereitgestellt werden.

Eine moderne Cloud-Strategie für BIA nutzt heute bedarfsabhängig alle drei Servicemodelle des Cloud Computing und bildet damit eine zu-sätzliche Sourcing-Option für IT-Leistungen.

Bei Infrastructure as a Service (IaaS) greift der Benutzer auf IT-Basisdiens-te zu. Diese umfassen virtuelle Server, Storages und Netze. Der wesent-liche Vorteil gegenüber traditionellem IT-Sourcing ist die Skalierbarkeit: Die Recheninstanzen können bedarfsorientiert angepasst (vertikale Ska-lierung) oder auch um weitere Instanzen ergänzt oder reduziert werden (horizontale Skalierung). Der Benutzer hat dabei alle Berechtigungen für die jeweiligen virtuellen Instanzen, trägt damit aber auch die volle Ver-antwortung für die Infrastruktur ab der Betriebssystemebene.

Für Cloud-BI- und Analytics-Infrastrukturen bedeutet dies, dass der Anwender seine On-Premises-Infrastrukturen schnell und flexibel ergän-zen kann. Dies ist z.B. für Testszenarien hilfreich, bei denen die neueste Version der Software einer On-Premises-Installation geprüft werden soll, um funktionale Unterschiede oder die Komplexität bei der Migration abzuschätzen. Mit IaaS kann dies geschehen, ohne die bestehende Infra-struktur anzutasten.

Platform as a Service (PaaS) bietet Entwicklungs- und Laufzeitumgebun-gen für Anwendungsentwicklung und -betrieb in der Cloud. Im Unter-schied zu IaaS hat der Benutzer hier keinen direkten Zugriff auf die Re-cheninstanzen. Er betreibt auch keine virtuellen Server. In PaaS-Szenarien bringt er vielmehr seine Programm-/Ablauflogik in die Cloud. Schnittstel-

Cloud-BI und Analytics – eine Einführung4

len in Form von Programmierschnittstellen oder komfortable GUIs die-nen dabei als Unterstützung. Die Cloud-Infrastruktur regelt hierbei die erforderliche Instanziierung der Verarbeitungseinheiten und das Verteilen der zu verarbeitenden Daten, auf Wunsch inklusive einer automatischen Skalierung an Leistungsanforderungen.

BIA-Umgebungen werden typischerweise durch den Einsatz von Werkzeugumgebungen aufgebaut. Diese umfassen Datenbanken, Re-porting, Planungsumgebungen und Datenintegrationswerkzeuge. Die hier erzeugten Artefakte werden über Laufzeitumgebungen der zugehöri-gen Plattformen ausgeführt. Alle genannten Werkzeuge sind heute in der Cloud verfügbar, sodass sich BIA-Umgebungen vollständig in der Cloud aufbauen lassen.

Software as a Service (SaaS) stellt die Funktionalitäten einer Anwen-dungssoftware in der Cloud bereit. Der Endnutzer bringt hierbei weder eine Applikation in die Cloud ein, noch muss er sich um Skalierbar-keit, Datenhaltung oder IT-Ressourcen kümmern. Er nutzt lediglich die Applikation, die in der Cloud bereitgestellt wird. Anpassungen an der Applikation bewegen sich dabei in dem sehr engen Rahmen einer Stan-dardsoftware. Die IT-Administration liegt vollständig in den Händen des Servicegebers.

Im Kontext von BIA ist es i.d.R. notwendig, individuellen Anforde-rungen an die Informationsbereitstellung zu genügen. Aus diesem Grund besteht typischerweise der Bedarf an Werkzeugen mit einem höheren Freiheitsgrad, als diese in SaaS-Umgebungen per Definition gegeben sind. Dennoch sind auch für SaaS im Bereich von BIA erste Nutzungsszenarien erkennbar, wie z.B. Planungsanwendungen in der Cloud mit ggf. limitier-teren Anpassungsmöglichkeiten.

1.3 Bereitstellung in der Cloud

Neben den technischen Servicemodellen werden die Organisationsfor-men der Cloud-Bereitstellung unterschieden. Die Definitionen für Begrif-fe wie z.B. »private« und »public« wurden dabei vom NIST (National Institute for Standards and Technology) geprägt und sind seit 2014 auch

Cloud-BI und Analytics – eine Einführung 5

in ISO/IEC 17788 [ISO17788] verfügbar. NIST 800-145 [MeGr11] listet fünf Charakteristika für Cloud Computing auf:

TT Selbstzuweisung von Leistungen TT Zugreifbarkeit über Netze für vielfältige Endgeräte TT Ressourcen-Pooling und Mehrmandantenfähigkeit TT Flexible Bereitstellung und Freigabe von RessourcenTT Messbarkeit und automatische Kontrolle und Optimierung

Diese Leistungsmerkmale können über unterschiedliche Liefermodelle bereitgestellt werden. NIST definiert vier Liefermodelle:

TT Public CloudTT Private CloudTT Hybrid CloudTT Community Cloud

Die Public Cloud bietet den Zugang zu einer mehrmandantenfähigen IT-Infrastruktur für die öffentliche Nutzung über das Internet. In der Public Cloud können Kunden IT-Infrastruktur auf einer flexiblen Basis des Be-zahlens (monatliche Abonnements, leistungsabhängige Abrechnung) mie-ten, ohne in Rechner- und IT-Infrastruktur investieren zu müssen.

BIA profitiert von Public Clouds durch die Bereitstellung von tem-porären Infrastrukturen oder Plattformen. Dies ist stets hilfreich, wenn Proof of Concepts (PoC) durchgeführt werden müssen, um innovative Konzepte zu testen. Darüber hinaus ist stets zu erwägen, ob Teile der BIA dauerhaft von Leistungsmerkmalen der Cloud profitieren können (z.B. Skalierbarkeit, Flexibilität).

Die Private Cloud bietet eine virtualisierte IT-Infrastruktur, bei der sich die Rechner innerhalb der eigenen Organisation (Behörde, Firma, Verein) befinden. Im Rahmen der Private Cloud kann zwischen zwei weiteren Be-triebskonzepten unterschieden werden: Bei der Managed Private Cloud erfolgt der Betrieb durch den externen IT-Dienstleister. Die Cloud-Infra-struktur verbleibt i.d.R. im Hause des Kunden und in seinem Eigentum. Bei der Outsourced Private Cloud übernimmt ein externer IT-Dienstleis-ter von einem Kunden eine dedizierte Cloud-Infrastruktur (oder baut sie

Cloud-BI und Analytics – eine Einführung6

auf) und betreibt diese vollverantwortlich. Die Infrastruktur steht phy-sisch beim externen Partner, der auch Eigentümer der Assets ist.

Private Clouds sind ein Mittel zur Flexibilitätssteigerung der internen IT und heute weitgehend Standard. Hier ergeben sich für BIA keine be-sonderen Schlussfolgerungen.

Die Hybrid Cloud kombiniert Public und Private Clouds nach den Be-dürfnissen ihrer Nutzer. Der typische Ansatzpunkt für Hybrid Clouds im Umfeld von BIA ist der Aufbau eines Data Warehouse (DWH), in dessen Architektur Cloud-Komponenten integriert werden. Beispiel hierfür ist die Integration von Datenquellen, die über Cloud-Services günstig ange-bunden werden können, wie Social-Media- oder Wetterdaten. Die Ausla-gerung von Data Marts in die Cloud ist eine weitere Umsetzungsoption von BIA mittels Hybrid Cloud.

Die Community Cloud entspricht im Wesentlichen der Public Cloud, be-zieht sich jedoch auf einen ausgewählten Nutzerkreis, der räumlich ver-teilt ist und sich die Kosten teilt. Hierunter fallen oft städtische Behörden, Universitäten, Forschungsgemeinschaften, Genossenschaften, Kooperati-onsnetze von Unternehmen usw. Der naheliegende Anwendungsfall für Community Clouds im Bereich BIA findet sich immer dann, wenn ver-trauliche Daten in ähnlicher Form bei unterschiedlichen Anwenderunter-nehmen vorliegen und leicht über die Cloud gesammelt werden können. Um diese übergreifend auszuwerten, wird ein vertrauenswürdiger Partner etabliert, der die Daten zusammenführt und Erkenntnisse an die Mitglie-der der Community verteilt. Praktisch ist dies etwa im Bereich Industrie 4.0 anzutreffen: Ein Maschinenbauunternehmen tritt hier nicht selten als vertrauenswürdiger Partner auf und sammelt Prozessdaten aus der Fer-tigung der angeschlossenen Produktionsunternehmen für Zwecke der prädiktiven Wartung.

Cloud-BI und Analytics – eine Einführung 7

1.4 Fazit

Cloud Computing bietet heute für BI und Analytics unübersehbare Vor-teile. Die Risiken sind beherrschbar und sollten nicht zur Begründung einer pauschalen Vermeidungshaltung dienen.

Wesentliche Argumente für die Nutzung von Cloud Computing sind die Verlagerung der Investitionen für Hard- und Software sowie die Va-riabilisierung der Betriebskosten, abhängig von der tatsächlichen Nut-zung der Systeme. Sprungfixe Kosten für Kauf und Einrichtung der Infra-strukturen entfallen. Auch kann eine Cloud-basierte Infrastruktur schnell wieder außer Dienst gestellt werden. Dies vereinfacht auch die Entschei-dungsprozesse hinsichtlich Anschaffung und Bereitstellung von Diensten.

Vor einer pauschalen Erwartung, Cloud-Services seien unschlagbar günstig, ist jedoch zu warnen. Durch die Buchung eines Cloud-Service schließt der Anwender einen komplexen Servicevertrag ab, der umfang-reiche IT-Leistungen auf die Seite des Cloud-Service-Anbieters verlagert. Diese Leistungen werden auch bei Berücksichtigung einer Kostendegres-sion durch Skaleneffekte stets ihren Preis haben. Positiv ist anzumerken, dass führende Cloud-Anbieter heute gut kalkulierbare Preismodelle und transparente, servicebasierte Abrechnungen bieten.

8

2 Mehrwerte von Cloud-Services in hybriden DWH-Architekturen

Stefan Kirner, inovex GmbH

Die Gründe, IT-Infrastruktur aus dem eigenen Rechenzentrum in eine (Public) Cloud zu verschieben, sind vielfältig und einleuchtend: niedrigere Kosten, schnel-lere Time to Market und Effizienz des Kapitaleinsatzes, um nur die wichtigsten zu nennen. Die komplette Verlagerung eines Corporate Data Warehouse in die Cloud ist allerdings bislang eher die Ausnahme. Abgesehen von der gerade in Deutsch-land sehr ernsthaft geführten Datenschutzdiskussion würde es viel Aufwand und Kosten bedeuten, die Daten aller relevanten Quellsysteme mit der Cloud zu syn-chronisieren oder alle Systeme des Unternehmens dorthin umzuziehen. Einen Zwi-schenweg stellen hybride DWH-Architekturen dar, die selektiv Cloud-Dienste nut-zen und dabei die On-Premises- und Cloud-Datenbestände intelligent integrieren. Die Vorteile dieser Services werden in den folgenden Abschnitten erläutert und im Anschluss werden einige typische Szenarien aus der Praxis vorgestellt.

2.1 Skalierbarkeit

Dem stetig steigenden Hunger analytischer Lösungen auf mehr Rechen- und Speicherkapazität setzen die Public-Cloud-Anbieter das Angebot fast unendlicher Ressourcen entgegen. Das ist sowohl für horizontale als auch vertikale Skalierungsszenarien ein großer Vorteil gegenüber eigenen Re-chenzentren, deren Ausstattung mit der Kapitalbindung für den Kunden einhergeht. Um diese Performance-Optionen einem breiten Publikum als Dienst anbieten zu können, wurden sie abstrahiert und in der Be-dienung vereinfacht. So ist es teilweise über die Oberfläche möglich, die gewünschte Performance per Schieberegler einzustellen.

Dem im Zeitverlauf unterschiedlichen Ressourcenbedarf von DWH-Lösungen kommt die automatisierbare zeit- oder auslastungsgesteuerte Allokation von Rechenleistung zugute. So kann beispielsweise die Infra-struktur nachts für rechenintensive Batch-Operationen und tagsüber für Query Performance optimiert werden.

Mehrwerte von Cloud-Services in hybriden DWH-Architekturen 9

2.2 Chancen durch Technologievielfalt

In der Cloud sind sehr viele unterschiedliche Technologien nur einen Mausklick entfernt. Das schafft den Freiraum, in Projekten auch tech-nologisch neue Wege zu gehen mit weniger Einarbeitungs- und Bereit-stellungsaufwand. Die Cloud bietet einen Baukasten für die Zusammen-stellung von Softwarearchitekturen mit spezialisierten Komponenten, die über lose gekoppelte Schnittstellen direkt miteinander kommunizieren. Ob Realtime- oder traditionelle Batch-Verarbeitung, es sind oft gleich mehrere PaaS-Dienste mit unterschiedlichen Schwerpunkten für die gleiche Aufgabe vorhanden. Das ermöglicht die Umsetzung von Best-of-Breed-Ansätzen sehr viel einfacher als in On-Premises-Szenarien.

Inzwischen gibt es auch BI-Komponenten, die speziell für die Cloud entwickelt wurden und exklusiv dort verfügbar sind. Diese sind speziell auf diese Infrastruktur optimiert und bieten durch ihre Funktionalität ein Alleinstellungsmerkmal für bestimmte Cloud-Anbieter.

2.3 Erhöhte Agilität

Die tendenziell überlasteten EDV-Abteilungen vieler Unternehmen tun sich schwer mit der Infrastruktur für junge und hochkomplexe Techno-logien. Wenn in der Projekt-Ramp-up-Phase zunächst Hardware abge-schätzt, bestellt und eingerichtet werden muss, stagniert die Entwicklung für einige Zeit, was zu Konflikten führt.

Die Bereitstellung auch großer verteilter Systeme geht bei Public-Cloud-Anbietern innerhalb von Minuten vonstatten. Auch spätere Anpassungen bzgl. Skalierung oder Auswahl der Komponenten sind schnell und un-kompliziert möglich.

Die schnelle und flexible Bereitstellung von Entwicklungsumgebungen spielt zu Projektbeginn eine große Rolle und schafft später Sicherheit bei Upgrades oder Patches. Die Provisionierung kann über Container-Tech-nologien und Scripting wiederholbar eingerichtet werden. Über VPNs

Mehrwerte von Cloud-Services in hybriden DWH-Architekturen 10

und LDAP-Synchronisierungen können diese Umgebungen im Netzwerk der Unternehmen für den Anwender transparent eingebunden werden.

Diese Optionen stellen eine erhebliche Entlastung für die IT-Abteilungen dar und führen zu guten Voraussetzungen für die BI-Entwickler.

2.4 Schnelle Innovationszyklen der Hersteller

Der Unterschied zwischen Cloud- und On-Premises-Software macht sich insbesondere bei der Rollout-Frequenz neuer Features bemerkbar. Oft liegen bei On-Premises-BI-Produkten Jahre zwischen neuen Versionen, in der Cloud sind es teilweise nur wenige Wochen. Es ist einleuchtend, dass Deployments auf zentral verwalteten, hochautomatisierten Systemen des Cloud-Anbieters einfacher auszurollen sind als ein Release für die unter-schiedlichen Systemumgebungen aller Kunden.

2.5 Optimierung von Betriebskosten

Da Cloud-Systeme vom Kunden gemietet werden, fallen nur minimale initiale Investitionskosten an. Entscheidungsprozesse für Budgetfreiga-ben gestalten sich so einfacher. Falls die ausgewählten Softwarekompo-nenten sich wider Erwarten nicht optimal für die Aufgaben eignen, ist ein Umrüsten auf andere Dienste oder sogar der komplette Ausstieg aus der gemieteten Infrastruktur jederzeit möglich. Das vermeidet gerade bei großen Big-Data-Projekten finanzielle Risiken und auch potenziell zu bil-dende Rückstellungen. Die Synergieeffekte beim Einkauf der Hardware und der hohe Automatisierungsgrad der Cloud-Infrastrukturen führen zu niedrigen Kosten, die an den Endkunden weitergegeben werden. Damit können On-Premises-Rechenzentren preislich kaum konkurrieren.

Mehrwerte von Cloud-Services in hybriden DWH-Architekturen 11

2.6 Global verteilte Daten

Durch weltweit verteilte Standorte von international operierenden Kon-zernen und noch viel mehr mobilen Devices entstehen viele Daten dezen-tral. Meist sind für Data-Warehousing-Anwendungen nur ein Bruchteil oder Aggregate dieser Datenmenge notwendig. Dazu kommen als wichti-ger Filter die Vorschriften zum Datenschutz der einzelnen Länder.

Die großen Public-Cloud-Anbieter haben Rechenzentren in vielen Regio-nen, die für die dezentrale Sammlung und Vorverarbeitung dieser Daten genutzt werden können. Es können dafür aber überall die gleichen Diens-te und Verarbeitungs-Pattern (Laden, Cleansing etc.) angewandt werden. Das vereinfacht die Entwicklung und den Rollout der BI-Infrastruktur-Komponenten. Die konsolidierten Betrachtungen sind dann entweder direkt über SaaS-Frontend-Tools oder über eine weitere zentrale analyti-sche Datenbasis mit ausreichend Rechenpower möglich.

2.7 Ausfallsicherheit

Disaster-Recovery-Pläne sind gerade für große und komplexe BI-Systeme oft nur theoretisch vorhanden. Allerdings steigen diese Anforderungen proportional mit wachsender Bedeutung der Unternehmensdaten. Wich-tig sind sie vor allem dann, wenn die Einbindung des Data Warehouse in operative Prozesse erfolgt ist. Die Cloud-Anbieter garantieren durch spezielle Replikationsmechanismen sehr hohe Verfügbarkeiten, die in der Cloud enthalten und in unterschiedlichen Service Levels in Anspruch ge-nommen werden können.

In den folgenden Abschnitten werden einige Anwendungsfälle von hybri-den DWH-Architekturen aus der Praxis des Autors vorgestellt.

Mehrwerte von Cloud-Services in hybriden DWH-Architekturen 12

2.8 Szenario 1: Skalierbarkeit in der Cloud für Massendaten

Im Internet entstehende Massendaten wie Social-Media- oder Click-stream-Analysen werden in der Cloud mit horizontal skalierenden Big-Data-Systemen verarbeitet und in einem relationalen Massively Parallel Processing (MPP) DWH für das Berichtswesen bereitgestellt. Traditio-nelle Workloads sowie Analysen und Dashboards laufen weiterhin On-Premises über das Standard-BI-Tooling. Nicht sensible Daten werden über ein Data Gateway im Cloud-DWH angereichert, das nun auch ein konsolidiertes Reporting über alle Daten mit SaaS-BI-Frontend-Appli-kationen ermöglicht. Es sind keine Vorabinvestitionen in Hardware für die Big-Data-Systeme notwendig. Der Projektverlauf wird durch schnelle Provisionierung der Cloud-Systeme ohne den sonst vorab notwendigen intensiven Infrastruktur-Know-how-Aufbau beschleunigt.

2.9 Szenario 2: Technologievielfalt für die Optimierung der Fertigung

Bestimmte Sensordaten aus den global verteilter Fertigungsanlagen un-terschiedlicher Standorte eines Unternehmens werden über Field Gate-ways in die Cloud gesendet. Berechnungen werden direkt im Stream vorgenommen und die Daten durch Machine-Learning-Modelle mit Optimierungsvorschlägen angereichert. Die Persistenz der Ergebnisse er-folgt gleichzeitig in mehreren spezialisierten Datenbanken wie SQL- und Non-SQL-Datenbanken für unterschiedliche Zwecke. Außerdem findet das Streaming der Daten in Echtzeit-Dashboards zur Überwachung der Fertigungslinien statt, die dann direkt an den Linien angezeigt werden. Die Rückkopplung der zu optimierenden Parameter für den Maschinen-park wird über Data Gateways an alle Standorte übertragen und dient so der kontinuierlichen Verbesserung der Industriestraßen.

Hier wird besonders der Nutzen sowohl der Vielfältigkeit von Diensten in Public Clouds als auch der dezentralen Verfügbarkeit deutlich. Die Kosten für Cloud Computing und Datentransfer werden schnell durch Einsparun-gen bei Betriebskosten und Kapitaleinsatz für Hardware amortisiert.

Mehrwerte von Cloud-Services in hybriden DWH-Architekturen 13

2.10 Szenario 3: Alle Daten im Zugriff – Stretch-DB

Durch On-Premises entstehen oft hohe Betriebskosten für das Vorhalten historischer Daten im Data Warehouse. Deshalb wird aus Kostengründen oft unterschieden in historische Daten, die gelöscht oder offline archiviert werden, und aktuelle Daten, die im Data Warehouse für den schnellen Zugriff zur Verfügung stehen. Zur Lösung von Fragestellungen, die auch ältere Daten beinhalten, müssen die Daten dann ad hoc relativ mühsam zusammengestellt werden.

In dem Cloud-Szenario werden die älteren Daten ab einem definierten Alter automatisch aus dem On-Premises-DWH in ein baugleiches Cloud-DWH verlagert. Bei Abfragen werden die historischen und aktuellen Da-ten automatisch aus den Datenspeichern kombiniert und dem Nutzer als ein zusammenhängendes Recordset zurückgegeben. Dadurch sind histo-rische und aktuelle Daten immer im Zugriff, transparent für die Berich-te und Applikationen. Bei den historischen Daten sind höhere Latenzen akzeptabel. Die Funktionalität wird gerade bei schnell wachsenden Da-tenmengen über die Cloud-Lösung bei geringeren Kosten realisiert als durch On-Premises. Bei Bedarf ist das Hochskalieren des Cloud-DWH kein Problem.

2.11 Fazit

Cloud-Technologie erweitert das BI-Spielfeld um viele Möglichkeiten, die auf Wunsch schnell zu Verfügung stehen. Das kommt dem Prinzip der agilen Softwareentwicklung zugute, da das Ausprobieren von neuen Technologien mit weniger Kosten und Einarbeitung verbunden ist. Der Innovationsdruck der im harten Wettbewerb stehenden Cloud-Anbieter freut die Kunden, die neben der schnelleren Weiterentwicklung analyti-scher Systeme bei niedrigen Anfangsinvestitionen auch ein hohes Maß an Skalierbarkeit und Verfügbarkeit einkaufen.

14

3 Die Cloud als Agilitätshebel für BI und Analytics

Henning Baars, Universität Stuttgart

Kaum ein Bereich der IT steht unter einem so hohen Druck, agil zu agieren, wie der von Business Intelligence und Analytics (BIA), also der integrierten IT-basierten Ma-nagement- und Entscheidungsunterstützung. Die Cloud bietet hierfür völlig neue Gestaltungsansätze, bei denen jedoch die unterschiedlichen Dimensionen von BIA zu beachten sind.

3.1 Agilität für BI und Analytics

Agilität bezeichnet im Folgenden die Fähigkeit, auch unerwartete Anfor-derungen effizient und schnell umsetzen zu können [BaZi13]. Gerade im BIA-Umfeld ist es dabei nicht hinreichend, Agilität auf agile Vorgehens-modelle zu reduzieren, da hier stark Fragen der Aufbauorganisation, der eingesetzten Technologien und der Systemarchitektur berührt werden [KrDi15, Zi14].

Abb. 3–1 Dimensionen einer agilen BIA mit Cloud-Services

Schicht

Ges

chäf

tsnä

heD

aten

bere

itste

llung

(anw

endu

ngsü

berg

reife

nd)

Dat

enbe

reits

tellu

ng(a

n wen

dung

sspe

zifis

ch)

Anal

yse

& Fr

onte

nd

Entwicklung & TestBetrieb

ArchivierungInfrastruktur

Funktionalität

Inhaltez. B. Bereitstellung eines Self-Service-Reporting-Frontends

z. B. IaaS-basierte Entwicklung

einer Big-Data-Lösung (Cluster)

z. B. Nutzungfertiger Analysemodellefür die Bildklassifikation

Die Cloud als Agilitätshebel für BI und Analytics 15

Cloud Computing (CC) als Ad-hoc-Bereitstellung skalierbarer IT-Kom-ponenten über geteilte, virtualisierte Infrastrukturen [MeGr11] setzt direkt an mehreren Dimensionen von BIA-Agilität an. So kann Cloud Computing in unterschiedlichen Phasen des Lebenszyklus eines BIA-Systems zum Einsatz kommen, auf allen Schichten einer BIA-Architektur genutzt werden sowie gleichsam dabei helfen, die Änderbarkeit der Infra-struktur, des Funktionsumfangs und der Skalierung zu erhöhen (vgl. Abb. 3–1). Diese Aspekte werden im Folgenden weiter ausgeführt, bevor im Anschluss auf Voraussetzungen für einen agilitätssteigernden Einsatz des Cloud Computing hingewiesen wird.

3.2 Cloud Computing im Lebenszyklus eines BIA-Systems

Eine wenig invasive Möglichkeit der Nutzung von Cloud Computing in der BIA ist der Einsatz für die Entwicklung und (funktionale) Tests. Spezi-ell das Prototyping profitiert vom Cloud Computing. Mehrere Hersteller kommerzieller BIA-Werkzeuge fördern einen solchen Ansatz mittlerweile durch die Bereitstellung von BIA-Tools, die in Cloud- und On-Premises-Versionen mit identischem Funktionsumfang bereitgestellt werden und so eine Migration erleichtern. Auf der Open-Source-Seite zeigt sich der Agilitätsnutzen einer CC-Entwicklung vor allem im Big-Data-Umfeld, da hier schnell auch umfangreiche Rechencluster aufgesetzt sowie über Dis-tributionslösungen ad hoc lauffähige Werkzeugkombinationen zusam-mengestellt werden können.

Im laufenden Betrieb eignen sich CC-Lösungen in besonderem Maße für die schnelle Bereitstellung und Anpassung von Systemen, die bereits auf CC-Quellsysteme aufsetzen, von temporären Lösungen, wie sie etwa für Advanced-Analytics-Projekte erforderlich werden (speziell für Data Discovery und die Modellgenerierung) [TTM15, Ba16], sowie von Syste-men, die über Unternehmensgrenzen hinweg genutzt werden.

Schließlich kann Cloud Computing auch für Außerdienststellung und Archivierung von BIA-Lösungen erwogen werden. Dies unterstützt eine Ad-hoc-Wiederherstellung von Systemen und Daten, wenn dies später etwa im Rahmen von Revisionen oder Rechtsstreitigkeiten notwendig werden sollte.

Die Cloud als Agilitätshebel für BI und Analytics16

3.3 Cloud Computing auf verschiedenen Schichten einer BIA-Architektur

Für Frontend-Komponenten liegt der Einsatz des Cloud Compu-ting aufgrund ihrer üblicherweise stark weborientierten Ausrichtung besonders nahe. Gleichzeitig greifen auf dieser Schicht viele unmittelbare Agilitätsforderungen der Benutzer etwa hinsichtlich innovativer Datenvisualisierungsfunktionen, neuer (mobiler) Endgeräte oder der Einbindung von externen Inhalten. Gerade in Kombination mit Self-Service-Werkzeugen können mit SaaS- und PaaS-Lösungen benutzernahe, agile Umgebungen aufgebaut werden.

Der natürliche Folgeschritt ist die Einbindung der anwendungsspezifi-schen Datenhaltung (Data Marts) in die Cloud, um so den Benutzern die Möglichkeit zu geben, zusätzlich zu Analyse und Präsentation auch die Datenmodelle anzupassen oder DWH-externe Inhalte einzubinden. Hier-bei stellt sich jedoch Frage, ob die resultierenden Datentransfervolumina zwischen Cloud-Data-Mart und On-Premises-DWH wirtschaftlich und technisch abbildbar sind.

Für die anwendungsübergreifende Datenbereitstellung (etwa ein Enterprise Data Warehouse oder ein Data Lake) größerer Konzerne ist ein CC-Ansatz sicherlich weiterhin nur als Private-Cloud-Variante abbildbar. Gerade in kleineren Unternehmen ist jedoch auch ein Data Warehouse in einer Public Cloud nicht mehr ganz so abwegig. Die führenden Cloud-Anbieter haben mittlerweile sichtbar auf frühere (Sicherheits-)Bedenken reagiert. Die Möglichkeiten, eine Lösung ohne Infrastrukturaufwand und mit reduzierten Konfigurationsanforderungen aufzubauen, agil Versio-nen zu wechseln oder die Lösung bei Bedarf zu skalieren, sprechen hier deutlich für einen Cloud-Ansatz. Gerade für mittelständische Unterneh-men mit geringer IT-Affinität kann eine Cloud-Lösung so den Einstieg in BIA überhaupt erst ermöglichen.

Die Cloud als Agilitätshebel für BI und Analytics 17

3.4 Cloud Computing für agile Inhalte, Funktionen und Skalierung

Agilität wird auf verschiedenen Ebenen der Geschäftsnähe wirksam – von der Infrastruktur über die Funktionalität bis hin zu den konkreten Inhalten.

Die Agilitätsvorteile der Cloud kommen dabei am deutlichsten bei Infrastrukturskalierungen zum Tragen. Während diese im klassischen Reporting-Umfeld mit konstantem Nutzungsniveau oftmals nachrangig sind, gewinnen sie für Advanced-Analytics- und Big-Data-Anwendungen deutlich an Relevanz. Für Advanced Analytics ist es die Rechnerlast, die stark zwischen den Phasen der Modellerstellung bzw. der Datenexplora-tion und der späteren Modellnutzung schwankt [Ba16]. Big-Data-Pro-jekte hingegen starten oftmals mit überschaubaren Datenvolumina, müs-sen dann aber bei Bedarf schnell hochskaliert werden. Schon begrifflich korrespondieren solche Infrastrukturanforderungen mit IaaS-Angeboten, über die bedarfsabhängig Rechenleistung, Speicher oder Netzkapazität bezogen werden können.

Die Agilität auf der Ebene der Funktionalität erhöhen SaaS- und vor allem PaaS-Lösungen. Spannend sind hier neuere PaaS-Plattformen, die einen Baukasten mit fertigen Modellen und Inhalten einerseits und gene-risch nutzbaren Werkzeugen für Datenanalysen, -transformationen, und -visualisierungen andererseits bieten, die dann zu komplexen Lösungen verknüpft werden können.

Es gibt viele Gründe, die dafür sprechen, dass ein großer Agilitäts-bedarf bei der Anpassung der Inhalte entsteht, von der Definition der konkreten Datenmodelle bis zur Spezifikation von Kennzahlen, Analy-semodellen und Reports [BaZi13]. Hier werden CC-Ansätze bislang zu-meist nur mittelbar wirksam. Es gibt aber Grund zur Annahme, dass in Zukunft über Cloud-Lösungen mehr und mehr direkt Inhalte bezogen werden, etwa vordefinierte Reports und Kennzahlen in unternehmens-übergreifenden BIA-Lösungen, fertige, anwendungsspezifische Analyse-modelle in BIA-PaaS-Umgebungen sowie die steigende Relevanz offener Datensammlungen (Open-Data-Bewegung).

Die Cloud als Agilitätshebel für BI und Analytics18

3.5 Voraussetzungen und flankierende Maßnahmen

Um das Agilitätspotenzial von Cloud Computing in der BIA ausnutzen zu können, ist eine Reihe von Voraussetzungen zu schaffen (vgl. Abb. 3–2).

Unabhängig von Agilitätsaspekten muss die Nutzung des Cloud Computing für BIA technisch und organisatorisch abgesichert werden. Dies beinhaltet insbesondere die Ausarbeitung adäquater Governance-Strukturen, die regeln, für welche Inhalte wer, wann, wie die Cloud nut-zen darf.

Abb. 3–2 Cloud-Komponenten als Bausteine einer agilen BIA

Der Agilitätsanspruch setzt dem jedoch Grenzen: Eine zu detaillierte und bürokratische Regelung kann das Ziel einer zügigeren und effizienten BIA-Bereitstellung schnell konterkarieren.

Ähnlich verhält es sich mit der Organisation der BIA-Services, von Archivierungs- und Backup-Services über das Helpdesk bis zum Change Management. Eine noch so agile Systementwicklung wird ihre Wirkung verfehlen, wenn diese durch langwierige Freigabe- und Releaseprozes-se ausgebremst wird. Dies kommt im Cloud Computing in besonderer Weise zum Tragen, da die eigenen Services mit denen des CC-Anbieters abgestimmt werden müssen [ErBa15].

Agile undCloud-konforme BIA-

Werkzeuge, Daten-modelle und Architekturen

(agilitätskompatible) Cloud-Governance

Agile Vorgehensmodelle

(agilitäts- und Cloud-kompatible)BIA-Service-organisation

Cloud-basierteBIA-Komponenten(SaaS, PaaS, IaaS)

Die Cloud als Agilitätshebel für BI und Analytics 19

Dass IT-Agilität so schnell mit »agilen Vorgehensmodellen« gleichgesetzt wird, ist keine Überraschung, stehen althergebrachte, wasserfallorientier-te Modelle dem Ziel, schnell und effizient bedarfskonforme Lösungen bereitzustellen, deutlich entgegen. Wie bereits angemerkt, lässt sich Cloud Computing passgenau in agile Vorgehensmodelle einfügen. Eine Iterati-on/ein Sprint mit einem lauffähigen System lässt sich deutlich einfacher realisieren, wenn nicht zunächst Hard- und Software beschafft, installiert und konfiguriert werden müssen.

Des Weiteren sind aufseiten der Werkzeuge, Datenmodelle und Ar-chitekturen Voraussetzungen zu schaffen, die ebenfalls agilitätsfördernd oder -hemmend sein können. Dies betrifft sowohl die Inhouse- als auch die Cloud-Seite. Für die Architekturseite können Anwender mittlerweile auf einen umfangreichen Werkzeugkasten mit Sandboxes, Bypass-Lösun-gen für DWH-fremde Inhalte und flexibel einsetzbare Engine-Konzepte zurückgegriffen werden [Zi14]. Im Bereich der Datenmodellierung un-terstützt vor allem die Data-Vault-Modellierung die Agilität. Die Heraus-forderung besteht darin, diese Ansätze auf CC-Umgebungen zu portieren.

3.6 Fazit

Agilität ist ein wesentliches Argument für den Einsatz des Cloud Com-puting im Bereich der BIA. Mit dem Internet der Dinge, Industrie 4.0 sowie der generell fortschreitenden Digitalisierung entstehen derzeit neue Agilitätsbedarfe in der BIA. Eine über das Cloud Computing agil ausge-staltete BIA wird in diesem Umfeld zu einem wichtigen Baustein für die Sicherstellung der langfristigen Wettbewerbsfähigkeit von Unternehmen.

20

4 Big Data in der Cloud – Vorteile von Cloud-Lösungen bei großen Datenmengen?

Siegfried Höck, Dimitri Gross, OPITZ CONSULTING Deutschland GmbH

Fast zeitgleich wurden Cloud und Big Data in der IT-Welt als neue Technologie-stränge aufgenommen. Mit der voranschreitenden Entwicklung dieser beiden Be-reiche zeichnen sich aktuell viele Synergien ab. So sprechen wir nicht mehr von Cloud Storage oder SaaS, sondern von Big Data as a Service bzw. aktuell auch von Machine Learning as a Service. In diesem Abschnitt gehen wir explizit auf Big Data in der Cloud ein, erläutern die Vor- und Nachteile einer Big-Data-Cloud-Plattform und zeigen an einem Kostenbeispiel, ab wann sich eine On-Premises-Lösung mehr lohnt.

4.1 Storage in der Cloud

Wer sich mit Big Data beschäftigt, der kennt das Thema einer effizienten Speicherung von Daten. Da die Daten in Dateien abgelegt werden, benö-tigt man hierzu ein schnelles und verteiltes Dateisystem.

Für die On-Premises-Welt verwendet man z.B. für Apache Hadoop ein Platten-Array, auch JBOD (»Just a Bunch Of Disks«) genannt, das mit einem Hadoop Distributed File System (HDFS) ausgestattet ist. Das HDFS bildet eine Replikation auf Softwareebene ab, sodass ein physika-lisches RAID-System entfällt. Die Cloud bietet nicht die Möglichkeit, ein Platten-Array hinzuzufügen, deswegen gibt es vielfältige Cloud-Storage-Lösungen: Man kann sich z.B. für magnetische Festplatten (HDD) oder Solid State Disks (SSD) entscheiden. Diese werden dann an eine Rech-nerinstanz als Platte angehängt. Dieses Vorgehen ist sinnvoll für loka-le Daten, wie eine Betriebssysteminstallation, bei denen kein verteiltes Dateisystem vorliegt und die deswegen obige Anforderungen nicht er-füllen. Unabhängig davon ist es natürlich möglich, mehrere Platten lokal anzubinden und mit diesen ein HDFS anzulegen. Um Storage rechnerun-abhängig zu betreiben, bieten die Cloud-Anbieter einen Object Storage an, der typischerweise wie folgt aufgebaut ist:

21Big Data in der Cloud

TT Der Zugriff auf den Object Storage erfolgt über eine API. Der Storage kann nicht frei mit einem Filesystem formatiert werden, sondern Ob-jekte werden über die API gespeichert und gelesen.

TT Im Object Storage können Objekte, also Binärdaten und somit auch Dateien, abgelegt werden.

TT Der Object Storage ist nicht an eine Rechnerinstanz gebunden, son-dern existiert unabhängig. Dadurch ist es möglich, dass viele »Wor-ker« auf den gleichen Object Storage zugreifen.

TT Der Object Storage ist i.d.R. nicht durch eine Maximalgröße be-schränkt, es können beliebig viele Daten abgelegt werden.

Ein Object Storage ist dementsprechend als Datenspeicher prinzipiell ge-eignet. Problematisch ist allerdings, dass der Object Storage nicht mit ei-nem entsprechenden Dateisystem versehen werden kann, weil der Zugriff nur über die API des Object Storage erfolgt. Mit der Implementierung einer Big-Data-Software könnte dieses Problem gelöst werden: Wird die Software mit entsprechenden Adaptoren ausgestattet, können die gän-gigen Object Storages der Cloud-Anbieter direkt angesprochen werden.

4.2 Wie kommen die Daten in die Cloud?

Eine Frage, die immer wieder gestellt wird, ist: »Wie bekomme ich meine Daten in die Cloud?« Um viele Daten bearbei ten zu können, müssen diese erst einmal zur Verfügung stehen. Zwei Szenarien lassen sich hier unterscheiden:

1. Die Daten werden zyklisch erfasst und über einen Messaging- Mechanismus in die Cloud übertragen.

2. Die Daten liegen in großer Menge »On-Premises« vor.

Im ersten Fall liegt die Lösung auf der Hand: Die zyklisch anfallenden Daten werden über eine geeignete Verbindung (HTTPS, VPN etc.) zu ei-nem Service in der Cloud übertragen, der die Daten in der Cloud spei-chert. Hierbei werden kleinere Datenmengen kontinuierlich über einen längeren Zeitraum gesammelt. Für große Datenmengen gibt es typischer-weise einen Import-Service. Dieser Service ist so gestaltet, dass man z. B.

22 Big Data in der Cloud

eine oder mehrere Festplatten mit den Daten per Post oder Kurier ein-schicken kann. Der Cloud-Anbieter baut die Festplatte(n) dann in einem »Übergabebereich« ein und überspielt die Daten in den privaten Cloud-Bereich des Kunden. Der Vorteil eines Import-Service: Mehrere Terabytes können ohne Probleme übertragen werden.

Zum Schutz der Daten während des Transports ist die Verschlüsse-lung der Festplatte dringend anzuraten. Hierzu bieten Cloud-Anbieter entsprechende Verfahren an. Einige Anbieter stellen dazu eine standardi-sierte Lösung bereit: Auf Anfrage erhält der Anwender eine hochsichere Datenbox, auf die er die Daten übertragen kann. Im Lieferumfang der Datenbox befindet sich ein Softwareclient, mit dessen Hilfe die Daten verschlüsselt auf der Box ablegt werden können.

4.3 »Ab morgen machen wir Big Data!«

In der Praxis erleben wir oft folgendes Szenario: Ein Unternehmen möch-te Ideen und Hypothesen zur Einbindung bis dato ungenutzter Daten-quellen überprüfen. In dem Zusammenhang ist aktuell häufig von einem »Analytics Lab« die Rede, sodass bereits mit relativ geringen Mitteln ein Cluster auf Basis einer freien Hadoop-Distribution aufgebaut werden kann. Doch die Frage, wie groß der Datendurchsatz in den nächsten drei Jahren sein wird bzw. welche Use Cases perspektivisch verprobt werden sollen, können die meisten Unternehmen nicht genau beantworten. Und damit ist es ihnen unter Umständen auch nicht möglich, bei der Hard-warekonfiguration das passende Sizing zu wählen. Je nach Use Case und zu erwartender Auslastung muss der Cluster entweder große Rechenlast bewältigen können oder viele IOPs (Input Output Operations per Se-cond) garantieren. Beides richtig zu portionieren, ohne ein klares Bild von den zukünftigen Szenarien zu haben, ist nicht möglich. So greifen Unternehmen oftmals zu Mittelmaß und bekommen eine nicht optimale Konfiguration mit einer Tendenz zur Überprovisionierung (= Bereitstel-lung von Überkapazität).

23Big Data in der Cloud

Abb. 4–1 Bedarfsangemessene Provisionierung im zeitlichen Verlauf

Das Problem der richtigen Provisionierung ist nicht neu und begleitet die Infrastrukturseite der IT bereits sehr lange. Eine pragmatische Lösung wäre, einen zusätzlichen Server zu nutzen. Doch dieser wäre natürlich nicht sofort verfügbar, sondern müsste noch installiert und angebunden werden. Es verginge also wertvolle Zeit. Besser wäre es in so einem Fall, zu überprüfen, wann sich der Kauf einer On-Premises-Plattform tatsäch-lich lohnt und ob nicht zu Beginn, wenn die Anforderungen noch zu defi-nieren sind, der Betrieb in der Cloud die bessere Wahl wäre.

4.4 On-Premises vs. Cloud

Es gibt gute Gründe dafür, Big Data »On-Premises« zu betreiben, aber auch starke Gründe dafür, in die Cloud zu gehen. Entscheidende Fakto-ren sind hierbei Kosten und Zeit. Eine Aussage über Kosten kann aller-dings nicht allgemeingültig getroffen werden, sondern sie ist von den zu betrachtenden Use Cases abhängig. Zu berücksichtigende Parameter sind die Auslastung und die Kapazität des Systems (CPU und RAM).

Der genaue Blick auf diese Parameter ist relevant, da bei einer On-Premises-Lösung Investitions- und Betriebskosten unabhängig von der Nutzung anfallen (Hardware, Strom, Kühlung, Infrastruktur, Betrieb etc.). Bei einer Cloud-Lösung hingegen werden nur nutzungsabhängig Betriebskosten fällig.

ProvisionierungBedarf

On-Premises Cloud

Prov

isio

nier

ung

Prov

isio

nier

ung

ZeitZeit

24 Big Data in der Cloud

Ein weiterer Faktor ist die Kapazität, die eine Anlage haben muss. Des-wegen wird diese typischerweise mit genügend Reserve (vgl. Abb. 4–1) gekauft (gebundenes Kapital). In der Cloud kann die Kapazität hingegen dynamisch angepasst werden: Wenn ich mehr oder weniger Rechenleis-tung benötige, kann ich horizontal oder vertikal skalieren.

Ein Rechenbeispiel zeigt dies sehr anschaulich: Basis für die Rech-nung ist eine geplante On-Premises-Anschaffung, die Folgendes umfasst: einen Master (32 CPU, 256 GB RAM), vier Worker (jeweils 16 CPU mit 128 GB RAM) und 16x 1-TB-Festplatten. Der Preis dafür liegt bei ca. 27.000,– €. Der Einfachheit halber sind Strom-, Wartungs-, Kühlungs-kosten etc. nicht berücksichtigt. Dagegen haben wir die Kosten in der Cloud als Funktion über die Auslastung gerechnet: die identische Aus-stattung dargestellt über eine Auslastung von 0 bis 100 %.

Abb. 4–2 Vergleich On-Premises mit Cloud (identische Konfiguration)

Wie man in Abbildung 4–2 deutlich erkennen kann, schneidet der rote Cloud-Graph den grünen On-Premises-Graph bei 43 %. Bleibt die Aus-lastung unter 43 %, dann spart man mit einer Cloud-Lösung. Liegt hin-gegen die Auslastung bei über 43 %, dann zahlt man mit einer Cloud-Lösung drauf.

Wenn wir davon ausgehen, dass unterschiedliche Use Cases berechnet werden, bei denen als Master und Worker unterschiedliche Konfiguratio-

0,00

10.000,00

20.000,00

30.000,00

40.000,00

50.000,00

60.000,00

70.000,00

0% 3% 6% 9% 12%

15%

18%

21%

24%

27%

30%

33%

36%

39%

42%

45%

48%

51%

54%

57%

60%

63%

66%

69%

72%

75%

78%

81%

84%

87%

90%

93%

96%

99%

On-Premises Cloud identisch Cloud optimiert

25Big Data in der Cloud

nen möglich sind, dann verändert sich das angepasste Bild. In Tabelle 4–1 ist solch eine Konfiguration dargestellt, d.h., dass beispielsweise für den Master in 30 % der Fälle eine kleinere und in 50 % der Fälle eine deutlich kleinere Konfiguration verwendet werden kann.

Anzahl Ausstattung Anteil

Storage 16 1-TB-Festplatte 100 %

Master 1

32 CPU, 256 GB RAM 20 %

16 CPU, 128 GB RAM 30 %

8 CPU, 64 GB RAM 50 %

Worker 4

16 CPU, 128 GB RAM 20 %

8 CPU, 64 GB RAM 30 %

4 CPU, 32 GB RAM 50 %

Tab. 4–1 Mögliche Konfigurationen für Master und Worker

Hintergrund für die Aufteilung ist, dass in der Cloud die verwendete Rechnerleistung pro PoC und sogar innerhalb eines PoC angepasst wer-den kann. In dem Fall verschiebt sich die Gerade eindeutig in Richtung Cloud (vgl. Abb. 4–2, blaue Linie): Wenn die Auslastung geringer als 79 % ist, dann spart man Geld. Ist sie höher als 79 %, dann zahlt man zu viel.

4.5 Fazit

Unsere einfachen Rechenbeispiele machen eines klar: Die Preis-Leistungs-Abwägung zwischen On-Premises und Cloud hängt von vielen Faktoren ab. Eine deutliche Tendenz lässt sich in jedem Fall erkennen: Je besser man seine Use Cases kennt, desto genauer kann man rechnen. Schon eine grobe Schätzung wie in unserem Beispiel zeigt, dass sich der Weg in die Cloud in vielen Fällen lohnen kann.

26

5 Unternehmensplanung in der Cloud

Hans W. Krefeld, Kerstin Podlinski, TIMETOACT GROUP

Wer hat sich nicht schon gewünscht, einmal – nur ganz kurz! – einen Blick in die Zukunft werfen zu können? Nur fix nachschauen, welche Produkte auch in den nächsten Jahren noch gut ankommen bei den Kunden (und welche nicht), und die eigenen Kapazitäten perfekt ausschöpfen. Mit einem Blick erkennen, welche Tech-nologie mehr ist als ein bloßer Trend und auch morgen noch Mehrwerte bietet. Statt unsicherer Annahmen stünde dann das profunde Wissen um die Zukunft im Mittelpunkt und würde so einiges einfacher machen. Wie aber schafft man ohne diesen Blick in die Zukunft eine möglichst realitätsnahe Planung? Wie lassen sich alle relevanten Daten und beteiligten Nutzer genau passend einbinden? Wie kann man eine Planung auf Basis von prüfbaren Fakten und empirischer Evidenz reali-sieren, anstatt sich dabei ausschließlich auf sein Bauchgefühl verlassen zu müssen?

5.1 Die Cloud – nur ein Trend oder doch ein nützlicher Verbündeter?

Eines der aktuellen Trendthemen ist unbestreitbar die Cloud, der dezen-trale Datenspeicher im Netz. Erste Unternehmen haben bereits auf die Veränderungen in der digitalen Welt reagiert und verlagern ihre Unter-nehmensplanung ganz oder teilweise in die Cloud. Vor diesem Schritt steht nicht nur die Optimierung der eigenen Datenbasis, die Festlegung von Zugriffsrechten und notwendigen Planungskriterien, sondern auch die intensive Auseinandersetzung mit der »Wolke«: Ist die dezentrale Cloud-Lösung überhaupt für das Unternehmen geeignet? Oder bleibt die gesamte Infrastruktur für die Planungs- und Berichtswesenslösung besser auf den firmeneigenen Servern (On-Premises) bestehen [MaTe12]?

Bei der Entscheidung spielen insbesondere die Faktoren »Sicherheit« und »Verfügbarkeit« eine besonders große Rolle. Schließlich haben beide Varianten unbestreitbar ihre Vor- und Nachteile: Verbleiben alle relevan-ten Daten On-Premises, behält das Unternehmen selbst die volle Kon-trolle. Das bedeutet aber auch, dass im Unternehmen entsprechendes IT-Know-how vorgehalten werden muss, um einen sicheren und störungs-

Unternehmensplanung in der Cloud 27

freien Betrieb zu gewährleisten. Anders bei der Cloud-Variante: Wartung, Backup, Security – all diese Punkte werden hier durch den Cloud-Anbie-ter abgedeckt, wodurch das Unternehmen aber auch weniger selbstbe-stimmt handeln kann. Dafür sind die getroffenen Sicherheitsmaßnahmen in Cloud-Zentren oft höher, als es bei einer On-Premises-Lösung möglich wäre [MaTe12].

Weitere Pluspunkte der Cloud sind z. B. die völlig flexible Skalierbar-keit hinsichtlich Nutzer und Daten sowie auch gerade die ortsunabhän-gige Infrastruktur. Auch in puncto Verfügbarkeit spielen Cloud-basierte Planungssysteme ihre Stärken aus. Hierbei handelt es sich gerade für in-ternational agierende Unternehmen mit weltweit verteilten Niederlassun-gen um wichtige Kriterien, da räumliche Entfernungen und unterschiedli-che Zeitzonen spürbar an Bedeutung verlieren [PBFHL09].

5.2 Auch in der Cloud noch aktuell: Was bei der Umsetzung einer Unternehmensplanung beachtet werden muss

Zusätzlich zu der Entscheidung »Cloud oder On-Premises« steht nach wie vor die Frage nach der optimalen technischen Umsetzung der Unter-nehmensplanung im Raum: Kann sich der Kleinunternehmer häufig noch mit Excel-Listen behelfen, sind die Tabellen bei wachsender Unterneh-mensgröße mehr Fluch als Segen. Die Komplexität der Tabellen nimmt zu, die Fehlerwahrscheinlichkeit steigt. Auch das Thema Datenkonsis-tenz rückt immer mehr in den Mittelpunkt: Wo genau ist die aktuellste Liste abgelegt? Sind darin wirklich alle Änderungen enthalten, die der erkrankte Mitarbeiter in der letzten Woche eingepflegt hat? Haben sich ggf. Copy-Paste- oder Formelfehler eingeschlichen, durch die falsche Er-gebnisse entstehen? Wie kann der Kollege in der asiatischen Zweigstelle auf die aktuellste Datei zugreifen? Weder eine gezielte Datenhaltung noch eine Historisierung verschiedener Planungsversionen ist mit derartigen Mitteln umsetzbar.

Unternehmensplanung in der Cloud28

Abb. 5–1 Von der Datenbasis zur Planung

Insbesondere die koordinierte Planung über Niederlassungs- und Lan-desgesellschaftsgrenzen hinweg beinhaltet viele zusätzliche Erschwernisse [ScZu04]. So kommen nicht selten die unterschiedlichsten Softwarelö-sungen zum Einsatz, die untereinander oft nur bedingt kommunizieren und damit bereits die reine Datenauswertung erschweren. Schnell entste-hen verteilte Informationssilos, die zahlreiche, manuelle Arbeitsschritte erforderlich machen und damit für einen hohen personellen Aufwand sorgen. Eine integrierte Lösung für die Unternehmensplanung erfordert demnach eine enge Verbindung aller Systeme: Preis-, Mengen-, Absatz- und Kostenplanung – alle planungsrelevanten Inhalte müssen unabhän-gig von ihrem physischen Standort so zusammenlaufen, dass sich jegli-che Anpassungen der einzelnen Teilplanungen direkt in den folgenden Planungsschritten widerspiegeln [BRS16]. Die Datenbasis muss jederzeit sowohl für klassische Soll-Ist-Vergleiche als auch für die Anwendung von

-

Unternehmensplanung in der Cloud 29

Predictive Analytics vollständig (integriert) und von einer hinreichenden Qualität sein (vgl. Abb. 5–1).

Der Begriff Predictive Analytics umfasst verschiedene Methoden zur Erstellung von Prognosen: Historische Unternehmensdaten werden auf wiederkehrende Muster hin untersucht, wodurch die Entwicklung wich-tiger Unternehmenskennzahlen wie Produktabsatz oder Umsatz wesent-lich genauer prognostiziert werden können. Derartige Methoden können, sofern sie richtig in die bestehenden Planungsabläufe integriert werden, einen enormen Mehrwert für die Unternehmensplanung liefern [Ma15].

Wie aber sieht eine zuverlässige, moderne Unternehmensplanung aus? Im besten Fall ist sie anwenderfreundlich und setzt kein technisches Know-how der Fachanwender voraus. Sie berücksichtigt die Anforderun-gen aller Mitarbeiter – unabhängig von ihrem physischen Standort – und ist in hohem Maße automatisiert, sodass den Mitarbeitern möglichst viel Zeit für ihre eigentlichen Kernkompetenzen bleibt. Kurzum: Die Lösung schafft für die Mitarbeiter die Basis dazu, weniger »Daten schubsen« zu müssen und stattdessen mehr und bessere konkrete Informationen zur Entscheidungsunterstützung und zur Handlungsempfehlungen zu erar-beiten [BHK15].

Eine vorausschauende Planung hilft dabei, komplexe wirtschaftliche Zusammenhänge näher zu beleuchten und besser zu planen, um fundierte Entscheidungen treffen zu können. Auf Basis von retrograden Analysen – z.B. Zeitreihen über einen Zeitraum von 5 bis 10 Jahren – werden Muster erkannt. Wie wirkt sich die Saison auf das Kundenverhalten aus, hat sich die Zahlungsmoral gegenüber dem Vorjahr verändert? Diese Einflussfak-toren werden als Parameter in die Unternehmensplanung übernommen. Als Ergebnis erfolgt eine Reduktion von Ungewissheit und Unsicherheit. Die Mitarbeiter müssen sich nicht länger auf ihr Bauchgefühl verlassen, sondern bauen ihre Entscheidungen auf Fakten auf.

5.3 Unternehmensplanung in der Cloud oder On-Premises – oder doch lieber sowohl als auch?

Wie wir sehen, wird das Thema »Unternehmensplanung« auch in Zu-kunft nicht an Komplexität verlieren, sondern gewinnt durch die Cloud sogar eher weiter an Fahrt. Aber ist wirklich alles nur schwarz und weiß,

Unternehmensplanung in der Cloud30

wenn sich Unternehmen über die technische Basis der Unternehmenspla-nung Gedanken machen? Neben den reinen Cloud- oder On-Premises-Lösungen bestehen auch Mischformen, sogenannte hybride Modelle [Bü14]. Hierdurch lassen sich jeweils passgenaue Varianten schnüren. In der Praxis kann das Modell dann z.B. so aussehen: Die ERP-Systeme verbleiben ganz klassisch auf firmeneigenen Servern, andere Dienste wie Google Apps werden aber bereits erfolgreich in der Cloud genutzt. In einer solchen Konstellation macht es allein schon perspektivisch Sinn, das Berichts- und Planungswesen langfristig auch in der Cloud zu verankern.

Die Unternehmensplanung und das Berichtswesen in die Cloud zu verlagern, schafft im Unternehmen Freiräume, da sich die interne IT nicht länger (aktiv) um Bereiche wie Datenbackup, Datensicherheit oder Verfügbarkeit kümmern muss. Allerdings sollte vor dem Wechsel in die Cloud geklärt werden, ob der jeweilige Cloud-Anbieter die vom Unter-nehmen vorgesehenen Standards erfüllt – gerade, wenn es um so sensible Daten wie z.B. die der Unternehmensplanung geht. Auch heute werden noch einige Leistungen als »Cloud« verkauft, die im Grunde aber eher in das klassische Hosting einzuordnen sind.

5.4 Fazit

Befindet sich das Berichtswesen eines Unternehmens in der Cloud, bin-det es i.d.R. kaum noch interne IT-Ressourcen. Die Anwender selbst sind häufig besonders von der hohen Verfügbarkeit und den kurzen Reakti-onszeiten begeistert. Der Zugriff auf Planungstools erfolgt unkompliziert über den Webbrowser von überall auf der Welt – ein großer Vorteil für externe Mitarbeiter wie Einkäufer, die viel reisen, um Rohstoffe vor Ort zu prüfen und Einkaufskonditionen auszuhandeln. Der Zugriff über das Smartphone kann bei modernen Cloud-Lösungen schnell und unkom-pliziert von überall auf der Welt erfolgen. Auch klassische On-Premises-Lösungen können diese Vorteile bieten, benötigen aber stets ein größeres technisches Engagement seitens der Unternehmen. Ob dieser Aufwand im Verhältnis steht oder nicht, muss für jedes Unternehmen einzeln ge-prüft und anhand der individuellen Begebenheiten und Anforderungen entschieden werden.

31

6 Datensicherheit und Cloud-BI

Markus Enderlein, INFOMOTION GmbH

Zwei zentrale Entwicklungen charakterisieren die Datensicherheit in Cloud-BI-Anwendungen. Zum einen nimmt der Umfang und die Vielfalt der Daten zu, die in bestehende Analysen mit einbezogen werden sollen. Zum anderen liegen die Daten nicht länger nur lokal beim Unternehmen, sondern auch an externen Spei-cherorten. Dies geht einher mit gesteigerten Sicherheitsbedenken vieler Unter-nehmen bezüglich einer möglichen Kompromittierung. Der Begriff beschreibt im technischen Kontext den erfolgreichen Angriff nicht zugriffberechtigter Dritter auf Dateien und Systeme der Cloud-BI-Anwendung. Dies kann nicht nur die externen Systeme selbst, sondern auch die (Daten-)Übertragung dorthin betreffen.

Die folgenden vier Handlungsfelder geben einen Überblick über die Heraus-forderungen und bieten erste Hilfestellungen zum Umgang mit diesen.

6.1 Ausgangsbasis

Der erste Schritt besteht in der genauen Definition von Anforderungen und Einsatzszenarien der Cloud-BI-Lösung. Je nachdem folgen daraus zusätzliche Anforderungen an die Datensicherheit, Compliance sowie die notwendigen technischen Sicherheitslösungen.

Auch Art und Umfang der Cloud-Nutzung spielen eine Rolle. Wird nur die Infrastruktur der Cloud genutzt (IaaS) oder liefert der Cloud-Anbieter alles bis hin zur Software (SaaS)? Ebenso sind Fragen der Da-tenhaltung zu beantworten. Liegen alle Daten in der Cloud oder werden nur die für den Anwendungsfall relevanten Daten verwendet? Welche Interaktionen mit anderen Systemen sind nötig? Erst wenn diese Fragen beantwortet sind, können weiterführende Überlegungen folgen.

Sind die Anforderungen an das System definiert, lassen sich daraus die zu berücksichtigenden Daten identifizieren. Je nach Art der Daten sind die Konsequenzen bei einer möglichen Kompromittierung unter-schiedlich schwer. Daher sollte dieses Risiko näher analysiert werden. Die folgenden drei Kategorien bieten sich hierbei an:

Datensicherheit und Cloud-BI 32

TT Restricted / Hohes Risiko – Kompromittierung könnte zu großem finan-ziellem oder juristischem Schaden für das Unternehmen führen. Zu-gang nur stark beschränkt oder auf Nachfrage.

TT Confidential & Private / Risiko vorhanden – Daten tragen ein Risiko für das Unternehmen und die Marke. Zugang nur unternehmensin-tern oder für bestimmte Abteilungen

TT Public / Kein Risiko – Daten stellen auch bei Kompromittierung kein Risiko für das Unternehmen dar.

Oft erstellen Unternehmen auch feinere Klassen. Je nach Datentyp kann so der richtige Schutzlevel gefunden werden, um Nutzen und Aufwand mit den entstehenden Kosten in Balance zu halten. Je nach Kategorie müssen anschließend verschiedene Entscheidungen getroffen werden: Ob und wie werden diese Daten in der Cloud verarbeitet, welche konkreten Schutzmaßnahmen müssen ergriffen werden und gelten besondere recht-liche Vorschriften?

Compliance beschreibt hierbei die Einhaltung von Gesetzen, Richt-linien, Branchenstandards und vertraglichen Regelungen. Vorhandene Vorschriften zur Datensicherheit finden natürlich auch in der Cloud-BI Anwendung. Welche dies genau bei der Verwendung von Cloud-BI sind, ist oft unklar. Je nach Art und Inhalt sind unterschiedliche Regelungen anzuwenden. So sind Personendaten speziell geschützt. Werden diese aber nur anonymisiert in der Cloud verarbeitet, entfallen wiederum viele Vorschriften des Datenschutzgesetzes. Eine übergeordnete Rolle nimmt das Gesetz zur Kontrolle und Transparenz im Unternehmen ein, das zu verbindlichen Regelungen im Umgang mit Risiken – also auch für die Datensicherheit – auffordert.

Zukünftige Gesetze wie die »EU-Datenschutz-Grundverordnung« oder das »Gesetz zum Schutz kritischer Infrastrukturen« sollten bei neuen Projekten mit einbezogen werden. Branchenspezifische Standards oder Normen bauen meist auf vorhandenen gesetzlichen Regelungen auf, erweitern diese und werden durch Audits kontrolliert. Auch spezielle vertragliche Regelungen können vorliegen. Beispielsweise ist einigen Un-ternehmen das Verarbeiten von kundenbezogenen Daten außerhalb des Unternehmens untersagt. Die Konsultation juristischer Experten ist im Rahmen der Compliance unabdingbar.

Datensicherheit und Cloud-BI 33

6.2 Anbieter

Ist die Entscheidung für Cloud-BI gefallen und sind die Anforderungen definiert, folgt die Auswahl des Anbieters. Das Unternehmen vertraut sich und seine Daten dem Anbieter an und sollte daher vorher entscheidende Fragen klären.

Zentrales Kriterium ist die Umsetzbarkeit des gewünschten Cloud-BI-Modells (Private, Hybrid oder Public Cloud). Welche Integrations-werkzeuge und Schnittstellen werden angeboten? Wie gestaltet sich die Interoperabilität mit anderen Systemen? Wie ist die Performance, insbe-sondere hinsichtlich Ausfallsicherheit und Geschwindigkeit? Welche Ab-rechnungsart kann vereinbart werden? Wie gestalten sich Wartung, Sup-port und welche Service Level Agreements werden angeboten? Ebenfalls wichtig und zu häufig vernachlässigt: Wie lässt sich eine Exit-Strategie umsetzen, falls beispielsweise der Anbieter gewechselt wird?

Auch die vertragliche Gestaltung sollte untersucht werden. Insbeson-dere bei größeren Anbietern ist diese jedoch meist standardisiert und bie-tet nur wenige Anpassungsmöglichkeiten.

Der Standort der Datenspeicherung und -verarbeitung kann ebenfalls entscheidend sein. Der USA Freedom Act, der 2015 den Patriot Act ablöste, ermöglicht US-Behörden im Verdachtsfall auch weiterhin Zugriff auf Daten in amerikanischen Datenzentren. Des Weiteren sind vertragliche Überein-stimmungen mit der Compliance des Unternehmens ebenso zu prüfen wie das Eigentumsrecht der Daten, das in jedem Fall bei dem eigenen Unterneh-men bleiben sollte. Der Gerichtsstand sollte nach Möglichkeit im eigenen Land liegen und Schadensersatzansprüche ausreichend dimensioniert sein.

Zur Bewertung von Qualität, Sicherheit und Prozesse des Cloud-An-bieters empfiehlt sich die Verwendung branchenüblicher Zertifizierungen. Einige wichtige hinsichtlich der Datensicherheit sind beispielsweise:

TT ISO 27001: Qualität der Informationssicherheits-Managementsysteme TT ISO 27017: Informationssicherheit im Cloud ComputingTT ISO 270018: Verarbeitung personenbezogener Daten in der Cloud

Je nach Anwendungsfall und Anbieter sollte die genaue Bedeutung der jeweiligen Zertifizierung mit den eigenen Anforderungen abgeglichen werden. Diese Zertifikate werden durch unabhängige Dritte nach teils

Datensicherheit und Cloud-BI 34

umfangreichen Audit-Prozessen vergeben. Solche objektiven Qualitäts-kennzeichen sollten im Entscheidungsprozess herangezogen werden und führen zu mehr Transparenz und Güte.

6.3 Technische Unterstützung

Zwei technische Methoden tragen wesentlich zur Datensicherheit bei Cloud-BI-Anwendungen bei:

Verschlüsselung beschreibt eine Methode zum Schutz der Daten. Unter Verwendung kryptografischer Verfahren werden die Daten unleserlich gemacht und sind nur mit dem korrekten Schlüssel wieder verwendbar. Ein sicheres Management der Schlüssel ist hierbei wichtig. Dieses kann lokal im Unternehmen oder in der Cloud erfolgen. Sowohl gespeicherte Daten als auch Daten, die gerade übertragen werden, können verschlüs-selt werden. Je nach Datentyp und erforderlicher Sicherheitsstufe sind unterschiedliche Standards anwendbar.

Tokenisierung ersetzt sensitive Daten durch bedeutungslose Platzhalter. So können beispielsweise Bankdaten von Kunden, die im Rahmen einer BI-Analyse nicht in der Cloud benötigt werden, durch feste Zeichenfol-gen ersetzt werden. Bei Bedarf können die sensitiven Daten von lokalen Datenquellen nachgeladen werden. Auch die Anonymisierung von per-sonenbezogenen Daten zur Reduzierung der Datenschutzanforderungen stellt eine Anwendung dieser Methode dar.

Somit müssen die sensitiven Daten selbst nicht in die Cloud geladen werden. Andere Informationen des gleichen Datensatzes lassen sich aber dennoch dort verarbeiten. Hierdurch lassen sich auch Compliance-An-forderungen erfüllen und die Notwendigkeit für den Einsatz komplexer Sicherheitsmechanismen verringern. Im Gegenzug nehmen jedoch die Verarbeitungsmöglichkeiten in der Cloud ab. So ist exemplarisch keine sinnvolle Suche auf den tokenisierten Werten mehr möglich.

Bewährt hat sich ein kombinierter Einsatz von Verschlüsselung und To-kenisierung. Eine vorherige Abwägung zwischen der Sicherheitskategorie der Daten, Compliance, Performance und den entstehenden Umsetzungs-kosten ist anzuraten.

Datensicherheit und Cloud-BI 35

Authentifizierung und Autorisierung sollten ergänzend eingesetzt werden. Deren Ziel ist es, sicherzustellen, dass der richtige Nutzer Zugriff auf die richtigen, für ihn freigegebenen Daten und Funktionen im System erhält.

Authentifizierung verifiziert die Identität des Nutzers. Typischerweise ge-schieht dies durch Benutzername und Passwort. Erweiterungen um bio-metrische Funktionen sind möglich. Auch existieren verschiedene techno-logische Lösungen zur Umsetzung.

Um den Aufwand multipler Identitäten bei mehreren Systemen zu vermeiden, empfiehlt sich z.B. die Einführung eines zentralen Identity-Management-Systems. Technologien wie SAML, OAuth oder Open ID sind bereits vorhanden. Auch bieten einige Cloud-Anbieter Komplettlö-sungen an.

Autorisierung verifiziert, auf welche Daten und Applikationen der Nutzer oder die Gruppe Zugriff hat und welche Rechte damit verbunden sind. Dies geschieht i.d.R. durch Prüfung der Zugehörigkeit im Unternehmen und der Position und kann beliebig ergänzt oder eingeschränkt werden.

Authentifizierung und Autorisierung sind wichtige Bestandteile der Da-tensicherheit, sollten jedoch nie alleine, sondern nur in Kombination mit anderen Sicherheitstechnologien Verwendung finden. Schon ein schwa-ches Passwort kann zu deren Kompromittierung führen.

6.4 Grundlagen berücksichtigen

Auch wenn viele Cloud-Anbieter eine sehr hohe Verfügbarkeit garan-tieren, ist eine eigene Backup-Strategie wichtig. Dieser Punkt gewinnt je nach Modell der Cloud-BI weiter an Bedeutung – z.B. wenn alle Daten in der Cloud gespeichert sind. Auch trägt der Anbieter keine Verantwortung für Nutzerfehler, wie das versehentliche Verändern oder Löschen von Da-ten. Zunächst empfiehlt sich hier erneut eine Definition der Anforderun-gen an die Backup-Lösung. Anschließend stellt sich die Frage nach deren Art – ebenfalls in der Cloud oder doch lokal?

Wichtige Kennzahlen bei der Analyse des Angebots des Cloud-BI-An-bieters ebenso wie bei der eigenen Lösung sind die Wiederherstellungs-

Datensicherheit und Cloud-BI 36

zeit bis zur Betriebsbereitschaft und der Zeitpunkt, zu dem Sicherungen erfolgen und ins System zurückgespielt werden können. Für die Backup-Lösungen sind die gleichen Compliance- und Sicherheitsanforderungen zu prüfen wie für die Cloud-BI-Lösung selbst.

Durch den Einsatz von Cloud-BI können viele der klassischen Moni-toring- und Protokollaufgaben an den Anbieter abgegeben werden. Den-noch sollten deren Ergebnisse regelmäßig geprüft werden. So erfordern Schadensersatzansprüche gegen den Betreiber z.B. den Nachweis eines Systemausfalls. Ein eigenes Monitoring der Systeme in Echtzeit ermög-licht es, Ausfälle zu erkennen oder schadhafte Zugriffe zu identifizieren und Gegenmaßnahmen einzuleiten. Eine eigene Archivierung von Log- und Protokolldateien kann ebenfalls sinnvoll sein.

Müssen für eigene Anforderungen oder vorgesehene Audits bestimm-te Aspekte überwacht werden, sollten diese mit dem Cloud-Betreiber ab-gestimmt werden.

6.5 Fazit

Die Datensicherheit ist eine zentrale Herausforderung in Cloud-BI-Sys-temen. Lösungen dazu existieren bereits und werden von den Anbietern von Cloud-BI umgesetzt. Die Definition der eigenen Anforderungen, um-fassende Gedanken zum Anwendungsfall und die Evaluation vorhande-ner Möglichkeiten helfen dabei, die Herausforderung Datensicherheit zu meistern.

Literatur 37

Literatur

[Ba16] Baars, H.: Advanced und Predictive Analytics – Die Cloud als Türöffner? In: BI-Spektrum, 5/2016, S. 8-11.

[BaZi13] Baars, H.; Zimmer, M.: A Classification for Business Intelligence Indicators. Proceedings of the 21st European Conference on Information Systems (ECIS), 2013.

[BHK15] Baumüller, J.; Hartmann, A.; Kreuzer, C.: Integrierte Unternehmens-planung: Grundlagen, Funktionsweise und Weiterentwicklung, hrsg. von Linde International, 2015.

[BRS16] Bartonitz, M.; Rodehack, E.; Steinbrecher, W.: Agiler und effizienter ohne Informationssilos. http://www.optimal-systems.de/2016/ 01/14/ agiler-ohne-informationssilos.

[Bü14] Büst, R.: Die Hybrid Cloud ist die Zukunft des Cloud Computing, 27. 01. 2014. In: clouduser.de, https://clouduser.de/analysen/die-hybrid-cloud-ist-die-zukunft-des-cloud- computing-23814.

[ErBa15] Ereth, J.; Baars, H.: Cloud-based Business Intelligence and Analytics applications – business value and feasibility. Proceedings of the 19th Pacific Asia Conference on Information Systems (PACIS 2015), Singapur 2015.

[ISO17788] ISO/IEC 17788:2014 Information technology – Cloud computing, 1st ed., 15.10.2014.

[KrDi15] Krawatzeck, R.; Dinter, B.: Agile Business Intelligence: Collection and Classification of Agile Business Intelligence Actions by Means of a Catalog and a Selection Guide. In: Information Systems Management, 32 (3), S. 177-191, 2015, ISSN: 1058-0530.

[Ma15] Mauerer, J.: Was ist was bei Predictive Analytics? In: Computerwoche, 26. 08.2015, http://www.computerwoche.de/a/was-ist-was-bei- predictive-analytics,3098583.

[MaTe12] Martens, B.; Teuteberg, F.: Decision-making in cloud computing environments: A cost and risk based approach. In: Information Systems Frontiers, 2012, Jahrgang 14, Heft 4.

Literatur38

[MeGr11] Mell, P.; Grance, T.: The NIST Definition of Cloud Computing, National Institute of Standards and Technology (NIST), 2011.

[PBFHL09] Pring, B.; Brown, R. H.; Frank, A.; Hayward, S.; Leong, L.: Forecast: Sizing the Cloud; Understanding the Opportunities in Cloud Services. In: Gartner Dataquest, 18. März 2009, https://img2.in-sight.com/graphics/uk/content/ microsites/cloud/forecast_ sizing_the_cloud_un_166525.pdf.

[ScZu04] Schniederjans, M. J.; Zuckweiler, K. M.: A quantitative approach to the outsourcing-insourcing decision in an international context. In: Management Decision, Jahrgang 42, Heft 8, S. 974–986.

[TTM15] Talia, D.; Trunfio, P.; Marozzo, F.: Data Analysis in the Cloud: Models, Techniques and Applications. Elsevier 2015.

[Zi14] Zimmer, M.: Agile Business Intelligence – Komponenten inte grierter Gesamtarchitekturen (Diss.), Lohmar 2014.

tdwi.eu

GET CONNECTED!

TDWI e.V. die größte Community für Analytics und Business Intelligence

UNABHÄNGIG.PRAXISNAH.PERSÖNLICH.

Business Intelligence und Analytics (BIA) in der Cloud bietet zahlreiche Möglichkeiten, existierende Infrastrukturen sinnvoll zu ergänzen. Doch viele Anwenderunternehmen sind im Hinblick auf die praktische Umsetzung noch zurückhaltend. Was genau ist Cloud Business Intelligence und Analytics, welche Besonderheiten sind zu beachten und welche Einsatzfelder bieten sich an?

Die Autoren dieser Broschüre beantworten diese Fragen und geben einen Überblick über relevante Themen im Umfeld Cloud Business Intelligence und Analytics. Die Beiträge spiegeln dabei die konkreten Umsetzungserfahrungen der Autoren wider und können so als Ausgangspunkt der Diskussion im TDWI Germany e. V. dienen.

Die Publikation richtet sich damit an interessierte Praktiker, die über die Integration von Cloud in ihre existierende BIA-Infrastruktur nachdenken.

Art.-Nr.: 077.95745 www.dpunkt.de

Ralf Finger (Hrsg.)

BI und Analytics in der Cloud