Transcript
Page 1: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

BigDataManagement

Prof.Dr.sc.inf. MichaelKaufmannHochschuleLuzern– Informatik

Page 2: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

EinführungWorum geht es?

Quelle:https://commons.wikimedia.org/wiki/File:BigData_2267x1146_white.png

Page 3: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Dataneversleeps

Source:https://www.domo.com/blog/wp-content/uploads/2016/06/16_domo_data-

never-sleeps-4-2.png

Page 4: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Datavolume

isexploding

Source:Hilbert,M.&López,P.,2011.TheWorld’s

TechnologicalCapacitytoStore,Communicate,andComputeInformation.

Science,332(6025),pp.60–65.

Page 5: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

MoreIs

Different

Anderson,P.W.,1972.MoreisDifferent:BrokenSymmetryandtheNatureoftheHierarchicalStructureofScience.Science,

177(4047),pp.393–396.

Page 6: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Source:https://commons.wikimedia.org/wiki/File:Glass_of_Water.JPG Source:https://commons.wikimedia.org/wiki/File:2004-tsunami.jpg

Page 7: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Thedata – intelligence gap

Source:Zikopoulos,P.&Eaton,C.,2011.UnderstandingBigData:AnalyticsforEnterpriseClassHadoopandStreamingData1sted.,McGraw-HillOsborneMedia.

Page 8: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

InteraktionWassehenSiehier?Warum?DiskutierenSie.

8 Bern,Oktober20148, 30.08.17

Page 9: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

From BigDatato LeanKnowledge

9,30.08.17

Page 10: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

DefinitionenWasistBigData?

8/30/17 10

Page 11: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

WasistBigData?GartnerGroup:3V

https://commons.wikimedia.org/wiki/File:BigDataVs.pnghttp://www.gartner.com/newsroom/id/1731916

Page 12: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

BigDataDefinitionof IBM/Uof Oxford:4V

Schroeck,M.,Shockley,R.,Smart,J.,Romero-Morales,D.,&Tufano,P.(2012).Analytics:Thereal-worlduseofbigdata- Howinnovativeenterprisesextractvaluefromuncertaindata (ExecutiveReportNo.GBE03519-USEN-00).NewYork:IBMInstituteforBusinessValue.http://public.dhe.ibm.com/common/ssi/ecm/gb/en/gbe03519usen/GBE03519USEN.PDF

Page 13: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Demchennko etal.2013:5V

Demchenko,Y.,Grosso,P.,Laat,C.de,&Membrey,P.(2013).Addressing big data issuesinScientificDataInfrastructure.In2013InternationalConferenceonCollaborationTechnologiesand Systems(CTS) (pp.48–55).https://doi.org/10.1109/CTS.2013.6567203

Page 14: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

DieNIST-“Standard“-Definition

• USNationalInstituteforStandardsandTechnology- BigDataPublicWorkingGroup:

• “BigDataconsistsofextensivedatasets primarilyinthecharacteristicsof1. volume,2. variety,3. velocity,4. and/orvariabilitythatrequireascalablearchitectureforefficientstorage,

manipulation,andanalysis.”(NIST,2015,p.5)

14,30.08.17

NIST.(2015).NISTBigDataInteroperability Framework:Volume1,Definitions (NISTSpecialPublication No.1500-1).NISTBigDataPublicWorkingGroup.Retrieved from

http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-1.pdf

big dataÌ data

Page 15: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Demchenko etal.2014:6V(!)...Usw.?

Demchenko,UniAmsterdam,Lecture Noteshttps://drive.google.com/open?id=0BxJ7yRr2HJQKcVZmNVRMQVZwaG8

Demchenko,Y.,Gruengard,E.,&Klous,S.(2014).InstructionalModelfor BuildingEffective BigDataCurriculafor OnlineandCampusEducation.In2014IEEE6thInternationalConferenceonCloudComputingTechnologyand Science (pp.935–941).https://doi.org/10.1109/CloudCom.2014.162

Page 16: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

TheorieWelcheLösungsansätzegibtes?

https://commons.wikimedia.org/wiki/File:Anchor-point_theory_in_Japanese.png

Page 17: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

BigDataManagement

Model:

TheData–ValueCycle(OECD2015)

OECD,2015.Data-DrivenInnovation:BigDataforGrowthandWell-Being,Paris:OECDPublishing.

Page 18: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

BigDataTechnologyModel:Schemaless ParallelismEigeneDarstellung

DistributedNoSQL-Datebase Systems

SQL-likeDataQueryLanguages

GraphProcessing

Real-timeprocessing ofdata streams

Statistics &MachineLearningPackages

DistributedFileSystem

OperatingSystem

fordistributedCPUand

RAM

DistributedProgramming

Environment

Dedicatedparallelhardw

areServerCluster

Page 19: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

NIST. (2015). NIST Big Data Interoperability Framework: Volume 2, Taxonomies (NIST Special Publication No. 1500–1). NIST Big Data Public Working Group. Retrieved fromhttp://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-2.pdf

Only thesetwo?

What for?

Page 20: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Umwelt

Data Intelligence als erkennendes System

Business (Produkte,

Services, Prozesse, …)

Markt(Kunden,

Konkurrenz, Politik, …)

Effektuierung

Data Intelligence

Analytik

Interaktion

Datafizierung & Integration

Wissenentsteht

Adapted from: Kaufmann, M. (2016).Towards a Reference Model for Big Data Management (Research Report). University of Hagen, Faculty of Mathematics and Computer Science.

https://ub-deposit.fernuni-hagen.de/receive/mir_mods_00000583

Page 21: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Intelligence

Intelligence

Datafizierung

Integration

Analytik

Interaktion

Datenintelligenz

Rahmenwerk: der BDMcube

Effektuierung

BDMcube

https://www.hslu.ch/de-ch/informatik/forschung/teams/data-intelligence-research/

Page 22: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Integration Analysis Interaction

(A)

Bus

ines

s

(1) Datafizierung (2) Integration (3) Analytik (4) Interaktion (5) Effektuierung

Integrierte Datenbanken

Analytic Platform User Interfaces Data Feedforward

Analytische Datenbestände

Data Science Anwendende Prozesse WertgenerierungSignale der realen Welt

Sensoren

Welchen Aspekt der Realität betrifft ihre BDA?

Z.B. Verkaufsstelle

Welche Daten brauchen Sie, um ihre BDA umzusetzen?

E.g., Kunden, Produkte, Warenkörbe

Wie generieren Sie Wissen mit den Daten innerhalb ihrer BDA?

Z.B. Vorhersage von Kundeninteressen an verschiedenen Produkten mittels Warenkorbanalysen und kollaborativen Filtern

Welche Geschäftsprozesse werden die Datenanalyseresultate ihrer BDA verwenden und mit ihnen interagieren?

Z.B. Marketing und Verkauf

Wie schafft ihre BDA einen Mehrwert für Ihr Unternehmen?

Z.B. Kundenzufriedenheit, Umsatzsteigerung

Wie werden neue Daten für Ihre BDA generiert?

Z.B. Scanning von Strichcodes beim Verkauf

Wie integrieren Sie alle relevanten Daten in eine kohärente Datenbank?

Z.B. ein Data Lake auf Hadoop, kombiniert mit einem Data Warehouse

Welche Werkzeuge und Technologien brauchen Sie, um die Daten zu analysieren?

Z.B. Statistiksoftware (R für Hadoop, SAS für DWH), maschinelles Lernen (Mlib, Mahout, H20 auf Apache Spark)

Wie können die Resultate der Datenanalysen proaktiv verwendet werden, indem sie in operative Systeme übermittelt werden?

Z.B. Anzeige von individuellen Produktempfehlungen für Kunden in Online Shop

Wie können Benutzer mit den Resultaten der Datenanalysen interagieren?

Z.B. Online, interaktive Abfragen von Kennzahlen basierend auf Volltextsuche (Elasticsearch)

(B)

IT

Datenintelligenz

Top-Down: Wie managen Sie Wissen und Fähigkeiten, die für die geplante Big Data Anwendung (BDA) notwendig sind? Bottom-up: Wie managen Sie Wissen und Fähigkeiten, welche durch die BDA entstehen (Emergentes Wissen)?

Beispiel top-down: Pilotprojekt, welches das technische Wissen generiert, in dem es einen spezifischen Geschäftsfall adressiertBeispiel bottom-up: Implementierung einer integireten big data Infrastrutkur für Analyse und Visualisation and visualization User Stories

Kau

fman

n, M

., E

ljasi

k-Sw

obod

a, T

., N

awro

th,

C.,

Ber

win

d, K

., B

orns

chle

gl,

M.,

Hem

mje

, M

. (2

017)

. M

odel

ing

and

Qua

litat

ive

Eval

uation

of

a M

anag

emen

t Can

vas

for

Big

Dat

a App

licat

ions

. Acc

epte

dfo

rpu

blic

atio

nas

a re

gula

rpa

per

at t

he6t

h in

tern

atio

nal C

onfe

renc

e on

Dat

a Sci

ence

, Te

chno

logy

and

App

licat

ions

DATA

201

7, M

adri

d, 2

4 -

26 J

uly

2017

.

Page 23: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

VorgehenWie generiert manWertmit Daten?

Page 24: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

BigDataStrategieentwickeln

• EKZist derElektrizitätsanbieter desKantons Zürich.Als öffentlich-rechtliche Institutionversorgt er eine MillionKunden.Er beschäftigt 1400Mitareiter undhateine Bilanzsumme von2Mia.CHF.

• EKZarbeitet aneiner digitalen Strategie,welche dieNutzung vonBigDatabeinhaltet.Umeine BigDataStrategie zu initialisieren,wurde einWorkshopmit derHochschule Luzern– Informatik durchgeführt,umdieVisionunddieZiele desBigDataManagementzu entwickeln.

• DerBDMcanvas wurde als Pilotanwendung eingesetzt,umdenWorkshopzu strukturieren,wasvonEKZals zielführend beurteilt wurde.

• SowohlIst-Zustand(gelb)alsauchSollzustand(rot)vonBigDatawurdemaufderLeinwandalsPost-Its angeklebt.

• SomitkönnenBigDataAnwendungengeplantwerden.

Page 25: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Integration Analysis Interaction

Intelligence

Bus

ines

s (A

)

1 Datafication 2 Integration 3 Analytics 4 Interaction 5 Effectuation

IntegratedData Base

AnalyticSoftware

User & Machine

Interfaces

FeedforwardControl

Source Data Data Science Applyingprocesses Value CreationReal World

Signals

Sensors andInput devices

Application

IT (

B)

Implementation

BigDataAnwendungenplanenundumsetzen

BDMcanvas fürBigDataProjektstatus-Reporting

Requirements Engineering(RQE)fürBigDatabeiSilberkredit

UserStories

DesiresRoles

Page 26: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

RelevanteDatenquellenidentifizieren

Page 27: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

RelevanteDatenquellenintegrierenhttps://en.wikipedia.org/wiki/Data_integration

Page 28: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Daten visualisieren, um Entscheidungen zu stützen

37, 30.08.17

[2]Kaufmann,M.,Koller,T.,Kurochina,D.,Stoffel,K.,Hemmje,M.(2017).InduktiveDatenvisualisierungfurSmartEnergymitdemIFC-Filter:FallstudieenersissuisseAG.Toappearin:Meier,A.,Portmann,E.(Ed.)SmartCity-Strategie,Governance&Projekte.

[3]Kaufmann,M.,Meier,A.,&Stoffel,K.(2015).IFC-Filter:Membershipfunctiongenerationforinductivefuzzyclassification.ExpertSystemswithApplications,42(21),8369–8379.http://doi.org/10.1016/j.eswa.2015.06.034

IntegrierteDatenbasisAn

alyse

SmartEnergySysteme Effektuierung

KomplexeEnergie-

modelleals«BlackBox»

Zusammenhang:Merkmale- Zielklasse

Merkmal1 Merkmaln…

µ(Zielklasse,Merkmal)Î [0,1]

DerMenschalsEntscheider

Datenintelligenz

SensordatenvonEnergiesystemen

Datafication

Integration

Interaktion

Analyse

Page 29: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

The three main types of process mining: discovery, conformance, and enhancement

PAGE 10

software system

(process)model

eventlogs

modelsanalyzes

discovery

records events, e.g., messages,

transactions, etc.

specifies configures implements

analyzes

supports/controls

enhancement

conformance

“world”

people machines

organizationscomponents

businessprocesses

http://w

ww.processmining.org/_m

edia/processminingboo

k/pr

ocess_mining_chapter_01

_introdu

ction.pd

f

Prozesse effizienter gestalten dank Datenanalyse

Page 30: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Twitter Tweet-Recorder

JSON-Interpreter

Landing zone

Observations

RelationshipsSQL Database

Research Server

Office-Spreadsheet ODBC

Twitter4JAPI

Autonomic Services

5

6

7

StatisticsTool

42

1

3

Delbiaggio, K., Hauser, C., Kaufmann, M. (2016). “The proximity Bias of Communication Recorded on Twitter in Switzerland”, in I. Bernhard (Ed.) Uddevalla Symposium 2016, Geography, Open Innovation, Diversity and Entrepreneurship. Revised papers presented at the19th Uddevalla Symposium,

June 30th to July 2nd at Birkbeck University of London, United Kingdom.

Tweeter

Datafication

Integration

Analysis

Twitter-Daten aufnehmen und analysieren

Effectuation:new sc. insights; further researchwith Twitter data

Intelligence:applied

conventionalstack to big data

Interaction:Publication &

discussion in sc. community

39, 30.08.17

Page 31: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

MenschMeinungsmacher, Kundengruppen

ZeitTrend, Verlauf

OrtStädte, Regionen,

Länder

GefühlFreude,

Ärger usw.

Begriffe&

AssoziationenLuzern->Schiff,Schwan,See,

Brücke,...

Kunden profilierenz.B. mit Social Media Daten

Page 32: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

BeispieleundFallstudien

30.08.17 41

Page 33: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

• PostFinance als Finanzinstitut ist gesetzlich verpflichtet, ihre Transaktionen auf Geldwäscherei zu untersuchen (AML = Anti Money Laundring).

• Dazu werden induktive Methoden zur Klassifikation von verdächtigen Transaktionen angewendet.

• Es gibt also Datenmuster, die bei einer Geldwäschereitransaktion häufig vorkommen und somit induktiv auf eine Geldwäschereitransaktion schliessen lassen.

• Die entsprechend klassifizierten Transaktionen werden anschliessend von Juristen überprüft.

Beispiel: Geldwäschereiprävention bei PostFinance 2006

Transaktions-System (ZV-IS)

AML-Tool

TransactionMonitoring

InductiveClassification

Verdachts-Fälle

Page 34: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

• Für PostFinance besteht bei jeder Ausleihung das Risiko, dass der Kunde das Geld nicht mehr zurückzahlt. Ein solcher Fall wird Ausfall (Default) genannt.

• Induktiv-statistisch werden folgende Kennzahlen berechnet:

• Probability of Default (POD): Wahrscheinlichkeit, dass ein Kunde ausfällt (bedingt durch seine relevanten Merkmale)

• Exposure at Default (EAD): Erwartungswert der Ausfallsumme zum Zeitpunkt des Ausfalls

• Loss given Default (LGD): Erwartungswert des Prozentsatzes des Verlustes, der nach Ablauf des Betreibungsverfahrens abgeschrieben werden muss

• Dazu werden Induktiv bestimmte KundenmerkmaleX1, ..., Xn mit der Zielvariablen Y (Ausfall Ja / Nein) verglichen und statistische Zusammenhänge gesucht. Die Zielvariable wird anschliessend mit einem regressiven Modell angenähert.

Beispiel: Analytisches Risk Management bei PostFinance 2007

Data Warehouse (DWH)KundenmerkmaleZielklasse: Ausfall

SPSSClementineR

PODEADLGD

StatistischeDatenanalyseund Modellierung

periodischeKundenklassifikation

RegressivesModell

Page 35: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

PostFinance AG2016

Integration:Systems,EAI,ETL,SOA

Datafication:I/Odevices

&que

stionn

aires

Customers

Operations

Market

Analyse

SQL

Hadoop

R

BigSQL

SAS

SPSS

Interaktion

Kunden-berater (Leads)

MIS-Reports/Dashboards

OLAP

MobileBerater

Suchmaschinef.Kennzahlen

SchnittstellenzuZiel-Systemen

Effektuierung

Strategie

Produkteffizienz

CustomerSatisfaction

Neukunden,Neugeldzufluss

DatenbasierteProdukte

Prozess-durchlaufzeiten

Hadoop Tools

RDBMS Metadata

Active DataWarehouse

Intelligence

Data-driven business

DataScienceTeam

Intelligence

BIManagement

Page 36: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Beispiel:Gebäude-SensordatenbeiSchindler2015

SmartphonemyPort-App

Lift„weiss“,wohinderPassagiermitdemLiftwill

LokalisierungmitBeacons

Page 37: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

Beispiel:NutzungsanalysenfürKundenbeiGetAbstract 2016

Anz.DownloadsproZusammen-fassungnachdiv.Kriterien

MigrationvonMySQLnachMongoDB:Abfragezeitvon1.8hauf28s

Page 38: Big Data Management v3...Die NIST-“Standard“-Definition • US National Institute for Standards and Technology -Big Data Public Working Group: • “Big Data consists of extensive

ForschungsgruppeDataIntelligence

• DatenintelligenzistdieKompetenzeinerPersonodereinerOrganisation,WissenundFähigkeitenaufgrundvonDatenzuerlangenundanzuwenden.

• DieForschungsgruppeDataIntelligence entwickelt,erforschtundevaluiertMethoden,mitdenensichSensordatenerfassen,WissenausDatengewinnenunddieInteraktionmitDatenvereinfachenlässt.

Prof.Dr.MichaelKaufmannProf.PeterSollberger Dr.AlexanderDenzler Dr.LadanPooyan-Weihs


Recommended