Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards...

Preview:

Citation preview

BigDataManagement

Prof.Dr.sc.inf. MichaelKaufmannHochschuleLuzern– Informatik

EinführungWorum geht es?

Quelle:https://commons.wikimedia.org/wiki/File:BigData_2267x1146_white.png

Dataneversleeps

Source:https://www.domo.com/blog/wp-content/uploads/2016/06/16_domo_data-

never-sleeps-4-2.png

Datavolume

isexploding

Source:Hilbert,M.&López,P.,2011.TheWorld’s

TechnologicalCapacitytoStore,Communicate,andComputeInformation.

Science,332(6025),pp.60–65.

MoreIs

Different

Anderson,P.W.,1972.MoreisDifferent:BrokenSymmetryandtheNatureoftheHierarchicalStructureofScience.Science,

177(4047),pp.393–396.

Source:https://commons.wikimedia.org/wiki/File:Glass_of_Water.JPG Source:https://commons.wikimedia.org/wiki/File:2004-tsunami.jpg

Thedata – intelligence gap

Source:Zikopoulos,P.&Eaton,C.,2011.UnderstandingBigData:AnalyticsforEnterpriseClassHadoopandStreamingData1sted.,McGraw-HillOsborneMedia.

InteraktionWassehenSiehier?Warum?DiskutierenSie.

8 Bern,Oktober20148, 30.08.17

From BigDatato LeanKnowledge

9,30.08.17

DefinitionenWasistBigData?

8/30/17 10

WasistBigData?GartnerGroup:3V

https://commons.wikimedia.org/wiki/File:BigDataVs.pnghttp://www.gartner.com/newsroom/id/1731916

BigDataDefinitionof IBM/Uof Oxford:4V

Schroeck,M.,Shockley,R.,Smart,J.,Romero-Morales,D.,&Tufano,P.(2012).Analytics:Thereal-worlduseofbigdata- Howinnovativeenterprisesextractvaluefromuncertaindata (ExecutiveReportNo.GBE03519-USEN-00).NewYork:IBMInstituteforBusinessValue.http://public.dhe.ibm.com/common/ssi/ecm/gb/en/gbe03519usen/GBE03519USEN.PDF

Demchennko etal.2013:5V

Demchenko,Y.,Grosso,P.,Laat,C.de,&Membrey,P.(2013).Addressing big data issuesinScientificDataInfrastructure.In2013InternationalConferenceonCollaborationTechnologiesand Systems(CTS) (pp.48–55).https://doi.org/10.1109/CTS.2013.6567203

DieNIST-“Standard“-Definition

• USNationalInstituteforStandardsandTechnology- BigDataPublicWorkingGroup:

• “BigDataconsistsofextensivedatasets primarilyinthecharacteristicsof1. volume,2. variety,3. velocity,4. and/orvariabilitythatrequireascalablearchitectureforefficientstorage,

manipulation,andanalysis.”(NIST,2015,p.5)

14,30.08.17

NIST.(2015).NISTBigDataInteroperability Framework:Volume1,Definitions (NISTSpecialPublication No.1500-1).NISTBigDataPublicWorkingGroup.Retrieved from

http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-1.pdf

big dataÌ data

Demchenko etal.2014:6V(!)...Usw.?

Demchenko,UniAmsterdam,Lecture Noteshttps://drive.google.com/open?id=0BxJ7yRr2HJQKcVZmNVRMQVZwaG8

Demchenko,Y.,Gruengard,E.,&Klous,S.(2014).InstructionalModelfor BuildingEffective BigDataCurriculafor OnlineandCampusEducation.In2014IEEE6thInternationalConferenceonCloudComputingTechnologyand Science (pp.935–941).https://doi.org/10.1109/CloudCom.2014.162

TheorieWelcheLösungsansätzegibtes?

https://commons.wikimedia.org/wiki/File:Anchor-point_theory_in_Japanese.png

BigDataManagement

Model:

TheData–ValueCycle(OECD2015)

OECD,2015.Data-DrivenInnovation:BigDataforGrowthandWell-Being,Paris:OECDPublishing.

BigDataTechnologyModel:Schemaless ParallelismEigeneDarstellung

DistributedNoSQL-Datebase Systems

SQL-likeDataQueryLanguages

GraphProcessing

Real-timeprocessing ofdata streams

Statistics &MachineLearningPackages

DistributedFileSystem

OperatingSystem

fordistributedCPUand

RAM

DistributedProgramming

Environment

Dedicatedparallelhardw

areServerCluster

NIST. (2015). NIST Big Data Interoperability Framework: Volume 2, Taxonomies (NIST Special Publication No. 1500–1). NIST Big Data Public Working Group. Retrieved fromhttp://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-2.pdf

Only thesetwo?

What for?

Umwelt

Data Intelligence als erkennendes System

Business (Produkte,

Services, Prozesse, …)

Markt(Kunden,

Konkurrenz, Politik, …)

Effektuierung

Data Intelligence

Analytik

Interaktion

Datafizierung & Integration

Wissenentsteht

Adapted from: Kaufmann, M. (2016).Towards a Reference Model for Big Data Management (Research Report). University of Hagen, Faculty of Mathematics and Computer Science.

https://ub-deposit.fernuni-hagen.de/receive/mir_mods_00000583

Intelligence

Intelligence

Datafizierung

Integration

Analytik

Interaktion

Datenintelligenz

Rahmenwerk: der BDMcube

Effektuierung

BDMcube

https://www.hslu.ch/de-ch/informatik/forschung/teams/data-intelligence-research/

Integration Analysis Interaction

(A)

Bus

ines

s

(1) Datafizierung (2) Integration (3) Analytik (4) Interaktion (5) Effektuierung

Integrierte Datenbanken

Analytic Platform User Interfaces Data Feedforward

Analytische Datenbestände

Data Science Anwendende Prozesse WertgenerierungSignale der realen Welt

Sensoren

Welchen Aspekt der Realität betrifft ihre BDA?

Z.B. Verkaufsstelle

Welche Daten brauchen Sie, um ihre BDA umzusetzen?

E.g., Kunden, Produkte, Warenkörbe

Wie generieren Sie Wissen mit den Daten innerhalb ihrer BDA?

Z.B. Vorhersage von Kundeninteressen an verschiedenen Produkten mittels Warenkorbanalysen und kollaborativen Filtern

Welche Geschäftsprozesse werden die Datenanalyseresultate ihrer BDA verwenden und mit ihnen interagieren?

Z.B. Marketing und Verkauf

Wie schafft ihre BDA einen Mehrwert für Ihr Unternehmen?

Z.B. Kundenzufriedenheit, Umsatzsteigerung

Wie werden neue Daten für Ihre BDA generiert?

Z.B. Scanning von Strichcodes beim Verkauf

Wie integrieren Sie alle relevanten Daten in eine kohärente Datenbank?

Z.B. ein Data Lake auf Hadoop, kombiniert mit einem Data Warehouse

Welche Werkzeuge und Technologien brauchen Sie, um die Daten zu analysieren?

Z.B. Statistiksoftware (R für Hadoop, SAS für DWH), maschinelles Lernen (Mlib, Mahout, H20 auf Apache Spark)

Wie können die Resultate der Datenanalysen proaktiv verwendet werden, indem sie in operative Systeme übermittelt werden?

Z.B. Anzeige von individuellen Produktempfehlungen für Kunden in Online Shop

Wie können Benutzer mit den Resultaten der Datenanalysen interagieren?

Z.B. Online, interaktive Abfragen von Kennzahlen basierend auf Volltextsuche (Elasticsearch)

(B)

IT

Datenintelligenz

Top-Down: Wie managen Sie Wissen und Fähigkeiten, die für die geplante Big Data Anwendung (BDA) notwendig sind? Bottom-up: Wie managen Sie Wissen und Fähigkeiten, welche durch die BDA entstehen (Emergentes Wissen)?

Beispiel top-down: Pilotprojekt, welches das technische Wissen generiert, in dem es einen spezifischen Geschäftsfall adressiertBeispiel bottom-up: Implementierung einer integireten big data Infrastrutkur für Analyse und Visualisation and visualization User Stories

Kau

fman

n, M

., E

ljasi

k-Sw

obod

a, T

., N

awro

th,

C.,

Ber

win

d, K

., B

orns

chle

gl,

M.,

Hem

mje

, M

. (2

017)

. M

odel

ing

and

Qua

litat

ive

Eval

uation

of

a M

anag

emen

t Can

vas

for

Big

Dat

a App

licat

ions

. Acc

epte

dfo

rpu

blic

atio

nas

a re

gula

rpa

per

at t

he6t

h in

tern

atio

nal C

onfe

renc

e on

Dat

a Sci

ence

, Te

chno

logy

and

App

licat

ions

DATA

201

7, M

adri

d, 2

4 -

26 J

uly

2017

.

VorgehenWie generiert manWertmit Daten?

BigDataStrategieentwickeln

• EKZist derElektrizitätsanbieter desKantons Zürich.Als öffentlich-rechtliche Institutionversorgt er eine MillionKunden.Er beschäftigt 1400Mitareiter undhateine Bilanzsumme von2Mia.CHF.

• EKZarbeitet aneiner digitalen Strategie,welche dieNutzung vonBigDatabeinhaltet.Umeine BigDataStrategie zu initialisieren,wurde einWorkshopmit derHochschule Luzern– Informatik durchgeführt,umdieVisionunddieZiele desBigDataManagementzu entwickeln.

• DerBDMcanvas wurde als Pilotanwendung eingesetzt,umdenWorkshopzu strukturieren,wasvonEKZals zielführend beurteilt wurde.

• SowohlIst-Zustand(gelb)alsauchSollzustand(rot)vonBigDatawurdemaufderLeinwandalsPost-Its angeklebt.

• SomitkönnenBigDataAnwendungengeplantwerden.

Integration Analysis Interaction

Intelligence

Bus

ines

s (A

)

1 Datafication 2 Integration 3 Analytics 4 Interaction 5 Effectuation

IntegratedData Base

AnalyticSoftware

User & Machine

Interfaces

FeedforwardControl

Source Data Data Science Applyingprocesses Value CreationReal World

Signals

Sensors andInput devices

Application

IT (

B)

Implementation

BigDataAnwendungenplanenundumsetzen

BDMcanvas fürBigDataProjektstatus-Reporting

Requirements Engineering(RQE)fürBigDatabeiSilberkredit

UserStories

DesiresRoles

RelevanteDatenquellenidentifizieren

RelevanteDatenquellenintegrierenhttps://en.wikipedia.org/wiki/Data_integration

Daten visualisieren, um Entscheidungen zu stützen

37, 30.08.17

[2]Kaufmann,M.,Koller,T.,Kurochina,D.,Stoffel,K.,Hemmje,M.(2017).InduktiveDatenvisualisierungfurSmartEnergymitdemIFC-Filter:FallstudieenersissuisseAG.Toappearin:Meier,A.,Portmann,E.(Ed.)SmartCity-Strategie,Governance&Projekte.

[3]Kaufmann,M.,Meier,A.,&Stoffel,K.(2015).IFC-Filter:Membershipfunctiongenerationforinductivefuzzyclassification.ExpertSystemswithApplications,42(21),8369–8379.http://doi.org/10.1016/j.eswa.2015.06.034

IntegrierteDatenbasisAn

alyse

SmartEnergySysteme Effektuierung

KomplexeEnergie-

modelleals«BlackBox»

Zusammenhang:Merkmale- Zielklasse

Merkmal1 Merkmaln…

µ(Zielklasse,Merkmal)Î [0,1]

DerMenschalsEntscheider

Datenintelligenz

SensordatenvonEnergiesystemen

Datafication

Integration

Interaktion

Analyse

The three main types of process mining: discovery, conformance, and enhancement

PAGE 10

software system

(process)model

eventlogs

modelsanalyzes

discovery

records events, e.g., messages,

transactions, etc.

specifies configures implements

analyzes

supports/controls

enhancement

conformance

“world”

people machines

organizationscomponents

businessprocesses

http://w

ww.processmining.org/_m

edia/processminingboo

k/pr

ocess_mining_chapter_01

_introdu

ction.pd

f

Prozesse effizienter gestalten dank Datenanalyse

Twitter Tweet-Recorder

JSON-Interpreter

Landing zone

Observations

RelationshipsSQL Database

Research Server

Office-Spreadsheet ODBC

Twitter4JAPI

Autonomic Services

5

6

7

StatisticsTool

42

1

3

Delbiaggio, K., Hauser, C., Kaufmann, M. (2016). “The proximity Bias of Communication Recorded on Twitter in Switzerland”, in I. Bernhard (Ed.) Uddevalla Symposium 2016, Geography, Open Innovation, Diversity and Entrepreneurship. Revised papers presented at the19th Uddevalla Symposium,

June 30th to July 2nd at Birkbeck University of London, United Kingdom.

Tweeter

Datafication

Integration

Analysis

Twitter-Daten aufnehmen und analysieren

Effectuation:new sc. insights; further researchwith Twitter data

Intelligence:applied

conventionalstack to big data

Interaction:Publication &

discussion in sc. community

39, 30.08.17

MenschMeinungsmacher, Kundengruppen

ZeitTrend, Verlauf

OrtStädte, Regionen,

Länder

GefühlFreude,

Ärger usw.

Begriffe&

AssoziationenLuzern->Schiff,Schwan,See,

Brücke,...

Kunden profilierenz.B. mit Social Media Daten

BeispieleundFallstudien

30.08.17 41

• PostFinance als Finanzinstitut ist gesetzlich verpflichtet, ihre Transaktionen auf Geldwäscherei zu untersuchen (AML = Anti Money Laundring).

• Dazu werden induktive Methoden zur Klassifikation von verdächtigen Transaktionen angewendet.

• Es gibt also Datenmuster, die bei einer Geldwäschereitransaktion häufig vorkommen und somit induktiv auf eine Geldwäschereitransaktion schliessen lassen.

• Die entsprechend klassifizierten Transaktionen werden anschliessend von Juristen überprüft.

Beispiel: Geldwäschereiprävention bei PostFinance 2006

Transaktions-System (ZV-IS)

AML-Tool

TransactionMonitoring

InductiveClassification

Verdachts-Fälle

• Für PostFinance besteht bei jeder Ausleihung das Risiko, dass der Kunde das Geld nicht mehr zurückzahlt. Ein solcher Fall wird Ausfall (Default) genannt.

• Induktiv-statistisch werden folgende Kennzahlen berechnet:

• Probability of Default (POD): Wahrscheinlichkeit, dass ein Kunde ausfällt (bedingt durch seine relevanten Merkmale)

• Exposure at Default (EAD): Erwartungswert der Ausfallsumme zum Zeitpunkt des Ausfalls

• Loss given Default (LGD): Erwartungswert des Prozentsatzes des Verlustes, der nach Ablauf des Betreibungsverfahrens abgeschrieben werden muss

• Dazu werden Induktiv bestimmte KundenmerkmaleX1, ..., Xn mit der Zielvariablen Y (Ausfall Ja / Nein) verglichen und statistische Zusammenhänge gesucht. Die Zielvariable wird anschliessend mit einem regressiven Modell angenähert.

Beispiel: Analytisches Risk Management bei PostFinance 2007

Data Warehouse (DWH)KundenmerkmaleZielklasse: Ausfall

SPSSClementineR

PODEADLGD

StatistischeDatenanalyseund Modellierung

periodischeKundenklassifikation

RegressivesModell

PostFinance AG2016

Integration:Systems,EAI,ETL,SOA

Datafication:I/Odevices

&que

stionn

aires

Customers

Operations

Market

Analyse

SQL

Hadoop

R

BigSQL

SAS

SPSS

Interaktion

Kunden-berater (Leads)

MIS-Reports/Dashboards

OLAP

MobileBerater

Suchmaschinef.Kennzahlen

SchnittstellenzuZiel-Systemen

Effektuierung

Strategie

Produkteffizienz

CustomerSatisfaction

Neukunden,Neugeldzufluss

DatenbasierteProdukte

Prozess-durchlaufzeiten

Hadoop Tools

RDBMS Metadata

Active DataWarehouse

Intelligence

Data-driven business

DataScienceTeam

Intelligence

BIManagement

Beispiel:Gebäude-SensordatenbeiSchindler2015

SmartphonemyPort-App

Lift„weiss“,wohinderPassagiermitdemLiftwill

LokalisierungmitBeacons

Beispiel:NutzungsanalysenfürKundenbeiGetAbstract 2016

Anz.DownloadsproZusammen-fassungnachdiv.Kriterien

MigrationvonMySQLnachMongoDB:Abfragezeitvon1.8hauf28s

ForschungsgruppeDataIntelligence

• DatenintelligenzistdieKompetenzeinerPersonodereinerOrganisation,WissenundFähigkeitenaufgrundvonDatenzuerlangenundanzuwenden.

• DieForschungsgruppeDataIntelligence entwickelt,erforschtundevaluiertMethoden,mitdenensichSensordatenerfassen,WissenausDatengewinnenunddieInteraktionmitDatenvereinfachenlässt.

Prof.Dr.MichaelKaufmannProf.PeterSollberger Dr.AlexanderDenzler Dr.LadanPooyan-Weihs

Recommended