Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
BigDataManagement
Prof.Dr.sc.inf. MichaelKaufmannHochschuleLuzern– Informatik
EinführungWorum geht es?
Quelle:https://commons.wikimedia.org/wiki/File:BigData_2267x1146_white.png
Dataneversleeps
Source:https://www.domo.com/blog/wp-content/uploads/2016/06/16_domo_data-
never-sleeps-4-2.png
Datavolume
isexploding
Source:Hilbert,M.&López,P.,2011.TheWorld’s
TechnologicalCapacitytoStore,Communicate,andComputeInformation.
Science,332(6025),pp.60–65.
MoreIs
Different
Anderson,P.W.,1972.MoreisDifferent:BrokenSymmetryandtheNatureoftheHierarchicalStructureofScience.Science,
177(4047),pp.393–396.
Source:https://commons.wikimedia.org/wiki/File:Glass_of_Water.JPG Source:https://commons.wikimedia.org/wiki/File:2004-tsunami.jpg
Thedata – intelligence gap
Source:Zikopoulos,P.&Eaton,C.,2011.UnderstandingBigData:AnalyticsforEnterpriseClassHadoopandStreamingData1sted.,McGraw-HillOsborneMedia.
InteraktionWassehenSiehier?Warum?DiskutierenSie.
8 Bern,Oktober20148, 30.08.17
From BigDatato LeanKnowledge
9,30.08.17
DefinitionenWasistBigData?
8/30/17 10
WasistBigData?GartnerGroup:3V
https://commons.wikimedia.org/wiki/File:BigDataVs.pnghttp://www.gartner.com/newsroom/id/1731916
BigDataDefinitionof IBM/Uof Oxford:4V
Schroeck,M.,Shockley,R.,Smart,J.,Romero-Morales,D.,&Tufano,P.(2012).Analytics:Thereal-worlduseofbigdata- Howinnovativeenterprisesextractvaluefromuncertaindata (ExecutiveReportNo.GBE03519-USEN-00).NewYork:IBMInstituteforBusinessValue.http://public.dhe.ibm.com/common/ssi/ecm/gb/en/gbe03519usen/GBE03519USEN.PDF
Demchennko etal.2013:5V
Demchenko,Y.,Grosso,P.,Laat,C.de,&Membrey,P.(2013).Addressing big data issuesinScientificDataInfrastructure.In2013InternationalConferenceonCollaborationTechnologiesand Systems(CTS) (pp.48–55).https://doi.org/10.1109/CTS.2013.6567203
DieNIST-“Standard“-Definition
• USNationalInstituteforStandardsandTechnology- BigDataPublicWorkingGroup:
• “BigDataconsistsofextensivedatasets primarilyinthecharacteristicsof1. volume,2. variety,3. velocity,4. and/orvariabilitythatrequireascalablearchitectureforefficientstorage,
manipulation,andanalysis.”(NIST,2015,p.5)
14,30.08.17
NIST.(2015).NISTBigDataInteroperability Framework:Volume1,Definitions (NISTSpecialPublication No.1500-1).NISTBigDataPublicWorkingGroup.Retrieved from
http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-1.pdf
big dataÌ data
Demchenko etal.2014:6V(!)...Usw.?
Demchenko,UniAmsterdam,Lecture Noteshttps://drive.google.com/open?id=0BxJ7yRr2HJQKcVZmNVRMQVZwaG8
Demchenko,Y.,Gruengard,E.,&Klous,S.(2014).InstructionalModelfor BuildingEffective BigDataCurriculafor OnlineandCampusEducation.In2014IEEE6thInternationalConferenceonCloudComputingTechnologyand Science (pp.935–941).https://doi.org/10.1109/CloudCom.2014.162
TheorieWelcheLösungsansätzegibtes?
https://commons.wikimedia.org/wiki/File:Anchor-point_theory_in_Japanese.png
BigDataManagement
Model:
TheData–ValueCycle(OECD2015)
OECD,2015.Data-DrivenInnovation:BigDataforGrowthandWell-Being,Paris:OECDPublishing.
BigDataTechnologyModel:Schemaless ParallelismEigeneDarstellung
DistributedNoSQL-Datebase Systems
SQL-likeDataQueryLanguages
GraphProcessing
Real-timeprocessing ofdata streams
Statistics &MachineLearningPackages
DistributedFileSystem
OperatingSystem
fordistributedCPUand
RAM
DistributedProgramming
Environment
Dedicatedparallelhardw
areServerCluster
NIST. (2015). NIST Big Data Interoperability Framework: Volume 2, Taxonomies (NIST Special Publication No. 1500–1). NIST Big Data Public Working Group. Retrieved fromhttp://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-2.pdf
Only thesetwo?
What for?
Umwelt
Data Intelligence als erkennendes System
Business (Produkte,
Services, Prozesse, …)
Markt(Kunden,
Konkurrenz, Politik, …)
Effektuierung
Data Intelligence
Analytik
Interaktion
Datafizierung & Integration
Wissenentsteht
Adapted from: Kaufmann, M. (2016).Towards a Reference Model for Big Data Management (Research Report). University of Hagen, Faculty of Mathematics and Computer Science.
https://ub-deposit.fernuni-hagen.de/receive/mir_mods_00000583
Intelligence
Intelligence
Datafizierung
Integration
Analytik
Interaktion
Datenintelligenz
Rahmenwerk: der BDMcube
Effektuierung
BDMcube
https://www.hslu.ch/de-ch/informatik/forschung/teams/data-intelligence-research/
Integration Analysis Interaction
(A)
Bus
ines
s
(1) Datafizierung (2) Integration (3) Analytik (4) Interaktion (5) Effektuierung
Integrierte Datenbanken
Analytic Platform User Interfaces Data Feedforward
Analytische Datenbestände
Data Science Anwendende Prozesse WertgenerierungSignale der realen Welt
Sensoren
Welchen Aspekt der Realität betrifft ihre BDA?
Z.B. Verkaufsstelle
Welche Daten brauchen Sie, um ihre BDA umzusetzen?
E.g., Kunden, Produkte, Warenkörbe
Wie generieren Sie Wissen mit den Daten innerhalb ihrer BDA?
Z.B. Vorhersage von Kundeninteressen an verschiedenen Produkten mittels Warenkorbanalysen und kollaborativen Filtern
Welche Geschäftsprozesse werden die Datenanalyseresultate ihrer BDA verwenden und mit ihnen interagieren?
Z.B. Marketing und Verkauf
Wie schafft ihre BDA einen Mehrwert für Ihr Unternehmen?
Z.B. Kundenzufriedenheit, Umsatzsteigerung
Wie werden neue Daten für Ihre BDA generiert?
Z.B. Scanning von Strichcodes beim Verkauf
Wie integrieren Sie alle relevanten Daten in eine kohärente Datenbank?
Z.B. ein Data Lake auf Hadoop, kombiniert mit einem Data Warehouse
Welche Werkzeuge und Technologien brauchen Sie, um die Daten zu analysieren?
Z.B. Statistiksoftware (R für Hadoop, SAS für DWH), maschinelles Lernen (Mlib, Mahout, H20 auf Apache Spark)
Wie können die Resultate der Datenanalysen proaktiv verwendet werden, indem sie in operative Systeme übermittelt werden?
Z.B. Anzeige von individuellen Produktempfehlungen für Kunden in Online Shop
Wie können Benutzer mit den Resultaten der Datenanalysen interagieren?
Z.B. Online, interaktive Abfragen von Kennzahlen basierend auf Volltextsuche (Elasticsearch)
(B)
IT
Datenintelligenz
Top-Down: Wie managen Sie Wissen und Fähigkeiten, die für die geplante Big Data Anwendung (BDA) notwendig sind? Bottom-up: Wie managen Sie Wissen und Fähigkeiten, welche durch die BDA entstehen (Emergentes Wissen)?
Beispiel top-down: Pilotprojekt, welches das technische Wissen generiert, in dem es einen spezifischen Geschäftsfall adressiertBeispiel bottom-up: Implementierung einer integireten big data Infrastrutkur für Analyse und Visualisation and visualization User Stories
Kau
fman
n, M
., E
ljasi
k-Sw
obod
a, T
., N
awro
th,
C.,
Ber
win
d, K
., B
orns
chle
gl,
M.,
Hem
mje
, M
. (2
017)
. M
odel
ing
and
Qua
litat
ive
Eval
uation
of
a M
anag
emen
t Can
vas
for
Big
Dat
a App
licat
ions
. Acc
epte
dfo
rpu
blic
atio
nas
a re
gula
rpa
per
at t
he6t
h in
tern
atio
nal C
onfe
renc
e on
Dat
a Sci
ence
, Te
chno
logy
and
App
licat
ions
DATA
201
7, M
adri
d, 2
4 -
26 J
uly
2017
.
VorgehenWie generiert manWertmit Daten?
BigDataStrategieentwickeln
• EKZist derElektrizitätsanbieter desKantons Zürich.Als öffentlich-rechtliche Institutionversorgt er eine MillionKunden.Er beschäftigt 1400Mitareiter undhateine Bilanzsumme von2Mia.CHF.
• EKZarbeitet aneiner digitalen Strategie,welche dieNutzung vonBigDatabeinhaltet.Umeine BigDataStrategie zu initialisieren,wurde einWorkshopmit derHochschule Luzern– Informatik durchgeführt,umdieVisionunddieZiele desBigDataManagementzu entwickeln.
• DerBDMcanvas wurde als Pilotanwendung eingesetzt,umdenWorkshopzu strukturieren,wasvonEKZals zielführend beurteilt wurde.
• SowohlIst-Zustand(gelb)alsauchSollzustand(rot)vonBigDatawurdemaufderLeinwandalsPost-Its angeklebt.
• SomitkönnenBigDataAnwendungengeplantwerden.
Integration Analysis Interaction
Intelligence
Bus
ines
s (A
)
1 Datafication 2 Integration 3 Analytics 4 Interaction 5 Effectuation
IntegratedData Base
AnalyticSoftware
User & Machine
Interfaces
FeedforwardControl
Source Data Data Science Applyingprocesses Value CreationReal World
Signals
Sensors andInput devices
Application
IT (
B)
Implementation
BigDataAnwendungenplanenundumsetzen
BDMcanvas fürBigDataProjektstatus-Reporting
Requirements Engineering(RQE)fürBigDatabeiSilberkredit
UserStories
DesiresRoles
RelevanteDatenquellenidentifizieren
RelevanteDatenquellenintegrierenhttps://en.wikipedia.org/wiki/Data_integration
Daten visualisieren, um Entscheidungen zu stützen
37, 30.08.17
[2]Kaufmann,M.,Koller,T.,Kurochina,D.,Stoffel,K.,Hemmje,M.(2017).InduktiveDatenvisualisierungfurSmartEnergymitdemIFC-Filter:FallstudieenersissuisseAG.Toappearin:Meier,A.,Portmann,E.(Ed.)SmartCity-Strategie,Governance&Projekte.
[3]Kaufmann,M.,Meier,A.,&Stoffel,K.(2015).IFC-Filter:Membershipfunctiongenerationforinductivefuzzyclassification.ExpertSystemswithApplications,42(21),8369–8379.http://doi.org/10.1016/j.eswa.2015.06.034
IntegrierteDatenbasisAn
alyse
SmartEnergySysteme Effektuierung
KomplexeEnergie-
modelleals«BlackBox»
Zusammenhang:Merkmale- Zielklasse
Merkmal1 Merkmaln…
µ(Zielklasse,Merkmal)Î [0,1]
DerMenschalsEntscheider
Datenintelligenz
SensordatenvonEnergiesystemen
Datafication
Integration
Interaktion
Analyse
The three main types of process mining: discovery, conformance, and enhancement
PAGE 10
software system
(process)model
eventlogs
modelsanalyzes
discovery
records events, e.g., messages,
transactions, etc.
specifies configures implements
analyzes
supports/controls
enhancement
conformance
“world”
people machines
organizationscomponents
businessprocesses
http://w
ww.processmining.org/_m
edia/processminingboo
k/pr
ocess_mining_chapter_01
_introdu
ction.pd
f
Prozesse effizienter gestalten dank Datenanalyse
Twitter Tweet-Recorder
JSON-Interpreter
Landing zone
Observations
RelationshipsSQL Database
Research Server
Office-Spreadsheet ODBC
Twitter4JAPI
Autonomic Services
5
6
7
StatisticsTool
42
1
3
Delbiaggio, K., Hauser, C., Kaufmann, M. (2016). “The proximity Bias of Communication Recorded on Twitter in Switzerland”, in I. Bernhard (Ed.) Uddevalla Symposium 2016, Geography, Open Innovation, Diversity and Entrepreneurship. Revised papers presented at the19th Uddevalla Symposium,
June 30th to July 2nd at Birkbeck University of London, United Kingdom.
Tweeter
Datafication
Integration
Analysis
Twitter-Daten aufnehmen und analysieren
Effectuation:new sc. insights; further researchwith Twitter data
Intelligence:applied
conventionalstack to big data
Interaction:Publication &
discussion in sc. community
39, 30.08.17
MenschMeinungsmacher, Kundengruppen
ZeitTrend, Verlauf
OrtStädte, Regionen,
Länder
GefühlFreude,
Ärger usw.
Begriffe&
AssoziationenLuzern->Schiff,Schwan,See,
Brücke,...
Kunden profilierenz.B. mit Social Media Daten
BeispieleundFallstudien
30.08.17 41
• PostFinance als Finanzinstitut ist gesetzlich verpflichtet, ihre Transaktionen auf Geldwäscherei zu untersuchen (AML = Anti Money Laundring).
• Dazu werden induktive Methoden zur Klassifikation von verdächtigen Transaktionen angewendet.
• Es gibt also Datenmuster, die bei einer Geldwäschereitransaktion häufig vorkommen und somit induktiv auf eine Geldwäschereitransaktion schliessen lassen.
• Die entsprechend klassifizierten Transaktionen werden anschliessend von Juristen überprüft.
Beispiel: Geldwäschereiprävention bei PostFinance 2006
Transaktions-System (ZV-IS)
AML-Tool
TransactionMonitoring
InductiveClassification
Verdachts-Fälle
• Für PostFinance besteht bei jeder Ausleihung das Risiko, dass der Kunde das Geld nicht mehr zurückzahlt. Ein solcher Fall wird Ausfall (Default) genannt.
• Induktiv-statistisch werden folgende Kennzahlen berechnet:
• Probability of Default (POD): Wahrscheinlichkeit, dass ein Kunde ausfällt (bedingt durch seine relevanten Merkmale)
• Exposure at Default (EAD): Erwartungswert der Ausfallsumme zum Zeitpunkt des Ausfalls
• Loss given Default (LGD): Erwartungswert des Prozentsatzes des Verlustes, der nach Ablauf des Betreibungsverfahrens abgeschrieben werden muss
• Dazu werden Induktiv bestimmte KundenmerkmaleX1, ..., Xn mit der Zielvariablen Y (Ausfall Ja / Nein) verglichen und statistische Zusammenhänge gesucht. Die Zielvariable wird anschliessend mit einem regressiven Modell angenähert.
Beispiel: Analytisches Risk Management bei PostFinance 2007
Data Warehouse (DWH)KundenmerkmaleZielklasse: Ausfall
SPSSClementineR
PODEADLGD
StatistischeDatenanalyseund Modellierung
periodischeKundenklassifikation
RegressivesModell
PostFinance AG2016
Integration:Systems,EAI,ETL,SOA
Datafication:I/Odevices
&que
stionn
aires
Customers
Operations
Market
Analyse
SQL
Hadoop
R
BigSQL
SAS
SPSS
Interaktion
Kunden-berater (Leads)
MIS-Reports/Dashboards
OLAP
MobileBerater
Suchmaschinef.Kennzahlen
SchnittstellenzuZiel-Systemen
Effektuierung
Strategie
Produkteffizienz
CustomerSatisfaction
Neukunden,Neugeldzufluss
DatenbasierteProdukte
Prozess-durchlaufzeiten
Hadoop Tools
RDBMS Metadata
Active DataWarehouse
Intelligence
Data-driven business
DataScienceTeam
Intelligence
BIManagement
Beispiel:Gebäude-SensordatenbeiSchindler2015
SmartphonemyPort-App
Lift„weiss“,wohinderPassagiermitdemLiftwill
LokalisierungmitBeacons
Beispiel:NutzungsanalysenfürKundenbeiGetAbstract 2016
Anz.DownloadsproZusammen-fassungnachdiv.Kriterien
MigrationvonMySQLnachMongoDB:Abfragezeitvon1.8hauf28s
ForschungsgruppeDataIntelligence
• DatenintelligenzistdieKompetenzeinerPersonodereinerOrganisation,WissenundFähigkeitenaufgrundvonDatenzuerlangenundanzuwenden.
• DieForschungsgruppeDataIntelligence entwickelt,erforschtundevaluiertMethoden,mitdenensichSensordatenerfassen,WissenausDatengewinnenunddieInteraktionmitDatenvereinfachenlässt.
Prof.Dr.MichaelKaufmannProf.PeterSollberger Dr.AlexanderDenzler Dr.LadanPooyan-Weihs