Upload
lyxuyen
View
215
Download
1
Embed Size (px)
Citation preview
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 1
Prof. Dr. Peter Chamoni
Sommersemester 2017
EntscheidungsunterstützungssystemeOrganisatorisches
Mercator School of Management
Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence
Prof. Dr. Peter Chamoni
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
Dozenten: Prof. Dr. Peter Chamoni
Silke Bandyszak
Ansprechpartnerin: Silke Bandyszak
LF 219
Website: http://www.msm.uni-due.de/wi
Download der Unterlagen: Lehre – Lehrveranstaltungen –
Entscheidungsunterstützungssysteme (EUS)
2
Kontakt
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
• Die Folien stellen eine Vorlesungsbeilage dar, kein Skript.
• Die Folien sollten mit den in der Vorlesung besprochenen Inhalten ergänzt werden.
• Die angegebene Literatur sollte in Verbindung mit diesem Foliensatz aus der
Veranstaltung durchgearbeitet werden.
3
Vorlesungsunterlagen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
• Alte Klausuren sind am Lehrstuhl bei Herrn Stefan Krebs, LF 212, erhältlich.
Die alten Klausuren sollen nur Orientierungshilfe sein (kein Fragenkatalog).
• Für die Klausur im Sommersemester 2017 wie auch für die Klausur im Wintersemester
2017/2018 gibt es keine Eingrenzung bzw. Ausgrenzung von Vorlesungsinhalten.
• Die Schwerpunkte, die im Rahmen der Vorlesung gesetzt werden, gelten sowohl für
die Klausur im Sommersemester 2017 wie auch für die Klausur im Wintersemester
2017/2018.
4
Klausur / Klausurvorbereitung
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
5
Zeitplan
25.04.2017 Grundlagen Entscheidungsunterstützungssysteme
02.05.2017 Business Intelligence und Business Analytics I
09.05.2017 Business Intelligence und Business Analytics II
16.05.2017 Reporting
23.05.2017 Dashboards und Visualisierung
30.05.2017 Knowledge Discovery in Databases
20.06.2017 Data Mining Grundlagen und Übung I
27.06.2017 Data Mining Grundlagen und Übung II
04.07.2017 Data Mining Grundlagen und Übung III
11.07.2017 Data Mining Grundlagen und Übung IV
18.07.2017 Data Mining Grundlagen und Übung V
25.07.2017 Zusammenfassung/Wiederholung
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
6
Literatur
• Gluchowski, Peter / Gabriel, Roland / Dittmar, Carsten (2008):
Management Support Systeme und Business Intelligence,
2. Aufl. Berlin: Springer-Verlag.
• Sharda, Ramesh / Delen, Dursun / Turban, Efraim (2014):
Business Intelligence and Analytics: Systems for Decision Support,
10. Aufl. Boston: Pearson.
• Kemper, Hans-Georg / Baars, Henning / Mehanna, Walid (2010):
Business Intelligence – Grundlagen und praktische Anwendungen: eine Einführung in
die IT-basierte Managementunterstützung,
3. Aufl. Wiesbaden: Vieweg+Teubner.
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 7
Prof. Dr. Peter Chamoni
Sommersemester 2017
EntscheidungsunterstützungssystemeGrundlagen Entscheidungsunterstützungssysteme
Mercator School of Management
Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence
Prof. Dr. Peter Chamoni
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
1 Grundlagen Entscheidungsunterstützungssysteme
8
2 Business Intelligence und Business Analytics
3 Reporting
4 Dashboards und Visualisierung
5 Knowledge Discovery in Databases
6 Data Mining
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
1 Grundlagen Entscheidungsunterstützungssysteme
9
1.1 Managementunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
• Management Support Systeme
… haben die Aufgabe, die Manager (Führungskräfte und Entscheidungsträger) bei
ihrer Arbeit im Unternehmen zu unterstützen.
• Um eine Konzeption eines Managementunterstützungssystems
aufstellen zu können, sind vorab
- die Managementprozesse zu analysieren und
- Unterstützungsmöglichkeiten durch IuK-Systeme herauszuarbeiten.
10
Grundlagen MSS(I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Problemstellungsphase
Suchphase
Beurteilungsphase
Entscheidungsphase
Realisierungsphase
Kontrollphase
1.1 Managementunterstützungssysteme
Managementprozess
11
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Interpersonelle
Rolle
Informationsrolle
Entscheiderrolle
1 Vorbild
2 Führer
3 Vermittler
4 Monitor
5 Verkünder
6 Sprecher
Information
erzeugen
verarbeiten/
verteilen
nutzen
1.1 Managementunterstützungssysteme
Mintzberg’s 10 Management Roles
12
7 Entrepreneur
8 Problemlöser
9 Mittelverteiler
10 Verhandler
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
13
Klassifikation betrieblicher Informationssysteme
[Hansen, Mendling, Neumann 2015]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
14
Managementinformationssysteme (MIS) (I)
Einkauf Produktion Lager
Periodische, verdichtete,
vergangenheitsorientierte
Information MIS
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
Managementinformationssysteme (MIS) (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
• Periodische, standardisierte Berichte,
• Verfügbarkeit der relevanten Informationen auf allen Managementebenen,
• Verdichtete, zentralisierte Informationen über alle Geschäftsaktivitäten,
• Größtmögliche Aktualität und Korrektheit der Informationen.
16
MIS-Anforderungen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
• Standardberichte: operative Kontrollinstrumente mit kurz- und mittelfristigem
Entscheidungshorizont für das untere und mittlere Management.
• Informationsaufbereitung
- ohne (aufwendige) Modellbildung und
- ohne Anwendung von anspruchsvollen Methoden
(logisch-algorithmische Bearbeitung).
• Kritik: Ersetzung des vorhandenen Informationsdefizits
durch eine Informationsflut
17
Managementinformationssysteme (MIS) (III)
[Gluchowski, Gabriel, Dittmar 2008]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
18
Entscheidungsunterstützungssysteme (EUS) (I)
Einkauf Produktion Lager
MIS
Modelle zur
Simulation und Optimierung EUS
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
• Effektive Unterstützung im Planungs- und Entscheidungsprozess
• Ausgeprägte Modell- und Methodenorientierung
• Eigene Datenbank
• Interaktive Nutzung durch Dialogsystem
• Problemstrukturierung, Alternativengenerierung und -bewertung
bei erkanntem Problemlösungsbedarf
• Zur Problemerkennung und Wahrnehmung von Signalen nicht geeignet
19
Entscheidungsunterstützungssysteme (EUS) (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
20
Führungsinformationssysteme (FIS) (I)
Einkauf Produktion Lager
FIS
EUS
MIS
Strategische IS zur individuellen,
zeitnahen Informationsbeschaffung
Komplexitätsreduzierend
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
• Dialog- und datenorientierte Informationssysteme für das Management
• Ausgeprägte Kommunikationselemente,
• Aktuelle entscheidungsrelevante interne und externe Informationen,
• Intuitiv benutzbare und individuell anpassbare Benutzungsoberflächen.
• Exception Reporting, Key Performance Indicator, Color-Coding
21
Führungsinformationssysteme (FIS) (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
22
Historische Entwicklung (I)
Einkauf Produktion Lager
FIS
EUS
MIS
Führungsinformationssystem
(Executive Information System)
Entscheidungsunterstützungs-
system
(Decision Support System)
Managementinformations-
system
(Management Information System)
1990
1980
1970
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.1 Managementunterstützungssysteme
23
Historische Entwicklung (II)
MIS
MIS als automatischer
Entscheidungs-
generator
Datenqualität =
Entscheidungsqualität
Informationsvoll-
ständigkeit durch IuK-
Technik
Informationsbedarf
a priori bestimmbar
EUS/DSS
Entscheidungsvor-
bereitung durch
Fachspezialisten
Datenbank-
orientierung
Konzentration auf das
interne Berichtswesen
Komplexe
Entscheidungsmodelle
FIS/EIS
Entscheidungsunter-
stützend
Information auf
Knopfdruck
Konzentration auf
TOP-Management
Interne und externe
Daten werden
einbezogen
DW/OLAP
Entscheidungsunter-
stützend
Vorstrukturiert und
interaktiv
Information for
everybody
Vielfältige
Datenquellen
Vielfältige
Analysemöglichkeiten
Business
Intelligence
E-Intelligence
Strategische
Anwendungen
Analysecockpits
Verknüpfung mit
Knowlegde-
Management
CPM
1970 1980 19901960 2000
Unte
rstü
tzungsniv
eau
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
1 Grundlagen Entscheidungsunterstützungssysteme
24
1.1 Managementunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
25
Entscheidungsprozess (nach Simon) (1)
Implementation
Monitoring
Problemlösung
Analyse: „Wo stehen wir?“
„Welche Alternativen gibt es?“
Entscheidung: „Welche Alternative ist die beste?“
Umsetzung: „So machen wir es!“
Kontrolle: „Wie erfolgreich waren wir?“
Signale
Organisation
Intelligence
Design
Choice
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Intelligence-Phase
• Scan der Umwelt
• Analyse der Ziele
• Sammlung von Daten
• Problemidentifikation und Kategorisierung des Problems
• Verantwortlichkeiten bzgl. der Problemlösung
Design-Phase
• Entwicklung von alternativen Handlungsoptionen
• Analyse potenzieller Lösungen
• Modellgestaltung
• Machbarkeitstest
• Ergebnisvalidierung
• Selektion des Auswahlprinzips
26
Entscheidungsprozess (nach Simon) (2)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Choice-Phase
• Festlegung der Verfahrenweise
- Analyseverfahren
- Algorithmen
- Heuristiken
- Blind Search
• Test der Robustheit des Modells
Implementation-Phase
• Umsetzung der Lösung
- Umgang mit Widerständen
- Unterstützung durch das höhere Management
- User Training
27
Entscheidungsprozess (nach Simon) (3)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
28
EUS (I)
EUS und seine Systemumgebung
[Turban, Aronson, Liang 2004, S. 43]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Eigenschaften und Leistungsvermögen eines EUS
• Entscheidungsunterstützungssysteme zeichnen sich u.a. durch
folgende Eigenschaften aus:
- flexibel und adaptiv
- interaktiv
- GUI-basiert
- iterativ
- Modelleinsatz
- u.v.m.
29
EUS (II)
[Turban, Aronson, Liang, Sharda 2007, S. 107]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
30
EUS (III)
[Turban, Aronson, Liang, Sharda 2007, S. 109]
Komponenten eines EUS (1)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Komponenten eines EUS (2)
Data Management Subsystem
• Komponenten
- Datenbank
- Datenbankmanagementsystem
- Data directory
- Komponenten zur Daten-
abfrage und -manipulation
31
EUS (IV)
Struktur eines Data Management Subsystem
[Turban, Aronson, Liang, Sharda 2007, S. 112]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Komponenten eines EUS (3)
Data Management Subsystem
• Datenbank
Extraktion von Daten aus verschiedenen Datenquellen,
die dem Unternehmen zur Verfügung stehen und die
ausgewertet werden sollen:
- Interne Daten, normalerweise aus OLTP-Systemen
- Externe Daten
• Regierungsbehörden
• Wirtschaftsverbände
• Marktforschungsinstitute, etc.
- Private Daten oder Richtlinien von Entscheidungsträgern
32
EUS (V)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Komponenten eines EUS (4)
Data Management Subsystem
• Datenbankmanagementsystem
- Extraktion der Daten
- Management der Daten und ihrer Beziehungen
untereinander
- Updates (hinzufügen, löschen, verändern)
- Datenabfragen und Datenmanipulation
- Verwendung des Data Directory (Data Dictionary)
• Data Directory
- Katalog der Daten enthält
• Datendefinitionen
• Informationen zur Datenverfügbarkeit, Datenquelle, Bedeutung
33
EUS (VI)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Komponenten eines EUS (5)
Modell Management Subsystem
• Komponenten
- Modellbasis
- Model Base Management System
- Modellierungssprache
- Model Directory
- Modellausführung, -integration
und Kommandoprozessor
34
EUS (VII)
Struktur eines Modell Management Subsystem
[Turban, Aronson, Liang, Sharda 2007, S. 115]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Komponenten eines EUS (6)
Modell Management Subsystem
• Model Base Management System
- Modellerstellung
- Modellupdates
- Modelldatenmanipulation
- Generierung neuer Routinen
- Verwendung des Model Directory
• Model Directory
- Modellkatalog
- Vordefinierte Modelle ergänzt mit Informationen zur Verfügbarkeit
und zu den Einsatzmöglichkeiten der Modelle
35
EUS (VIII)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Komponenten eines EUS (7)
Modellausführung
• Kontrolle der jeweils aktuell laufenden Modellberechnung
Model Command Processor
• … empfängt Modellinstruktionen über das User Interface
• … steuert und leitet Anweisungen an das
Model Base Management System
• Modellintegration
• Kombination verschiedener Modelloperationen
36
EUS (IX)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
1.2 Entscheidungsunterstützungssysteme
Komponenten eines EUS (8)
Knowledge-Based Management Subsystem
Zahlreiche unstrukturierte und semi-strukturierte Probleme sind so komplex,
dass zur ihrer Lösung Expertenwissen benötigt wird.
• Knowlegde Component besteht aus einem oder aus mehreren intelligenten
Systemen: „Expert/Intelligent Agent System Component“.
• … dient zur Lösung komplexer Probleme
• … stellt Funktionen anderer Komponenten zusätzliches „Wissen“ zur Verfügung
• Vorsicht:
Ein Knowledge Management System ist typischerweise ein textorientiertes EUS,
kein: Knowledge-Based Management System.
37
EUS (X)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 38
Prof. Dr. Peter Chamoni
Sommersemester 2017
EntscheidungsunterstützungssystemeBusiness Intelligence und Business Analytics
Mercator School of Management
Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence
Prof. Dr. Peter Chamoni
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
1 Grundlagen Entscheidungsunterstützungssysteme
39
2 Business Intelligence und Business Analytics
3 Reporting
4 Dashboards und Visualisierung
5 Knowledge Discovery in Databases
6 Data Mining
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
2 Business Intelligence und Business Analytics
40
2.1 Begriffsbestimmungen
2.2 Data Warehouse
2.3 On-Line Analytical Processing
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Intelligence
41
Business Intelligence (I)
„Data analysis, reporting and query tools can help business users wade through a
sea of data to synthesize valueable information from it – today these tools collectively
fall into a category called ‚Business Intelligence‘.“
[Gartner Group 1996]
„BI bezeichnet den analytischen Prozess, der – fragmentierte – Unternehmens-
und Wettbewerbsdaten in handlungsgerichtetes Wissen über die Fähigkeiten,
Positionen, Handlungen und Ziele der betrachteten internen oder externen
Handlungsfelder (Akteure und Prozesse) transformiert.“
„Die rechtzeitige Entdeckung und zielgerichtete Nutzung von Zusammenhängen
und Diskontinuitäten innerhalb oder außerhalb des Unternehmens ist der Kern
des Business Intelligence.“
[Grothe 1999]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Intelligence
• Unter Business Intelligence (BI) wird ein integrierter, unternehmensspezifischer,
IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden.
• Gesamtheit aller Werkzeuge und Anwendungen mit entscheidungsunterstützendem
Charakter, die zur besseren Einsicht in das eigene Geschäft und damit zum besseren
Verständnis in die Mechanismen relevanter Wirkungsketten verhelfen.
• Begriffliche Klammer, die eine Vielzahl unterschiedlicher Ansätze zur Analyse
geschäftsrelevanter Daten zu bündeln versucht (kein neues Konzept / Produkt).
42
Business Intelligence (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Intelligence
43
Business Intelligence (III)
Begriffsverständnis BI
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Intelligence
• Zu BI gehören alle Systemkomponenten, die dabei helfen, das
entscheidungsrelevante Datenmaterial
- zu sammeln und aufzubereiten,
- dauerhaft und nutzungsorientiert zu speichern,
- aufgabenadäquat zu analysieren und
- in geeigneter Form anzuzeigen.
• Die zugehörigen Funktionalitäten werden
von unterschiedlichen Software-Werkzeugen
erbracht.
• Mit Datenbereitstellung und Datennutzung
lassen sich zwei grundlegende Funktionsblöcke
von BI-Systemen voneinander abgrenzen,
die logisch und technisch aufeinander aufbauen.
44
Business Intelligence (IV)
[Gluchowski/Kemper (2006)]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Intelligence
45
Begriffsabgrenzung
Corporate Performance
Management (CPM)Business Intelligence (BI)
Methoden, Kennzahlen, Prozesse
und Systeme, um die Leistung des
Unternehmens zu messen und zu steuern.
[Gartner Group 2002]
Analytischer Prozess, der Unternehmens-
und Wettbewerbsdaten in handlungs-
gerechtes Wissen für die Unternehmens-
steuerung überführt
Top down Ansatz Bottom up Ansatz
Im Vordergrund steht in beiden Fällen die betriebswirtschaftliche Anwendung,
nicht ein IT-System.
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Analytics
46
Business Analytics (I)
• Business Analytics umfasst Werkzeuge, Methoden und Verfahren zur Erforschung und Analyse
historischer und aktueller Daten, um aus ihnen neue Erkenntnisse zu gewinnen, Geschäfts-
prozesse zu optimieren und die gesamte Unternehmensplanung auf die Zukunft auszurichten.
• Der Schwerpunkt liegt auf dem Einsatz von statistischen Methoden, Data Mining, quantitativen
Analysen und Prognosemodellen.
• Der Begriff kann als Erweiterung von Business Intelligence gesehen werden:
- Während sich Business Intelligence auf die aktuelle Unternehmensituation und gegenwartsbezogene
Entscheidungsunterstützung konzentriert (stützt sich insb. auf Ad-hoc-Abfragen, OLAP, Reporting &
Visualisierung), ist Business Analytics eher zukunftsorientiert; der Fokus liegt auf der Datenauswertung.
• Ziele von Business Analytics sind bspw.:
- Aufdeckung von Ursache-Wirkungs-Beziehungen und verdeckten Mustern anhand historischer Daten
- Vorhersage zukünftiger Entwicklungen, Unterstützung der langfristigen Geschäftsplanung
- Simulation & Optimierung von Zukunftsszenarien (was kann bestenfalls passieren?)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Analytics
47
Business Analytics (II)
[Gluchowski 2016, S. 277]
Einordnung unterschiedlicher Analytics-Ausprägungen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Analytics
48
Business Analytics (III)
• Descriptive & Diagnostic Analytics
- Betrachtung der Vergangenheit und ihrer Wirkung auf die Gegenwart
- Untersuchung der Gründe, Auswirkungen, Wechselwirkungen oder Folgen von bestimmten
Ereignissen in der Vergangenheit
• Predictive Analytics
- Blick in die Zukunft, Vorhersagen über die Wahrscheinlichkeit von zukünftigen Ereignissen
auf Basis von Data Mining, maschinellem Lernen und anderen statistischen Methoden
• Prescriptive Analytics
- Zusätzlich Handlungsempfehlungen, um auf vorhergesagte Ereignisse zu reagieren und
Trends zu beeinflussen, Wenn/Dann-Szenarien, Optimierung
Analytics-Ausprägungen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.1 Begriffsbestimmung Business Analytics
49
Business Analytics (IV)
[Lehmann 2012, S. 10]
Analytics-Evolutionsstufen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
2 Business Intelligence und Business Analytics
50
2.1 Begriffsbestimmungen
2.2 Data Warehouse
2.3 On-Line Analytical Processing
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.2 Data Warehouse
Data Warehouse (DW)
• … ist ein unternehmensweites Konzept, welches
• eine einheitliche und konsistente Datenbasis zur
Entscheidungsunterstützung für alle Mitarbeiter
aller Bereiche und Ebenen anbietet und
• getrennt von den operativen Datenbanken betrieben wird.
• “A data warehouse is a subject-oriented, integrated, nonvolatile, and
time-variant collection of data in support of management’s decisions.”
[Inmon, 1993]
51
Data Warehouse (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.2 Data Warehouse
Eigenschaften nach Inmon
• subject-oriented
- Ausrichtung an inhaltlichen Themenschwerpunkten (Dimensionen)
- Beispiel: Kunden, Regionen, Produkte
• integrated
- Vereinheitlichung der Daten aus den operativen Systemen
- Benennung, Skalierung und Kodierung
• nonvolatile
- Dauerhaftigkeit, Stabilität der Daten
- Bereitstellung von Zeitreihendaten über längere Zeiträume
52
Data Warehouse (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.2 Data Warehouse
Eigenschaften nach Inmon
• time-variant
- Zeitorientierung der Informationen
- Aktualität der Daten
- Schnappschuss des Unternehmensgeschehens
- Zeitbezug:
• Bestandsgrößen – Datumsangaben
• Bewegungsgrößen – Zeitraumangaben
53
Data Warehouse (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.2 Data Warehouse
54
Data Warehouse (IV)
Architektur eines DW
Komponenten Schichten
Referenzarchitektur eines DW
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.2 Data Warehouse
55
Data Warehouse (V)
ETL-Prozess
ETL-Prozess
[Kemper/Baars/Mehanna (2010), S. 38]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.2 Data Warehouse
56
Data Warehouse (VI)
Vergleich von operativen Systemen und Data-Warehouse-Lösungen
ETL-Prozess
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
2 Business Intelligence und Business Analytics
57
2.1 Begriffsbestimmungen
2.2 Data Warehouse
2.3 On-Line Analytical Processing
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
• Techniken des On-Line Analytical Processing (OLAP) ermöglichen dynamische,
konsistente und interaktive Zugriffe auf multidimensionale Datenbestände
• Als charakteristisch für die OLAP-Funktionalität gelten dynamische, multi-
dimensionale Analysen auf konsolidierten Unternehmensdatenbeständen.
• …ermöglicht und erleichtert Entscheidungsträgern eine schnelle Einsicht in
relevante Daten durch ein umfangreiches Angebot an direkt nutzbaren Sichten
auf die vorhandenen Informationen.
• Intuitive Benutzungsoberflächen
58
Grundlagen des On-Line Analytical Processing (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Einsatzbereiche
• Breite Fächerung potenzieller Anwendungsbereiche für multidimensionale
Informationssysteme
• überall dort, wo dispositive bzw. analytische Aufgaben zu lösen sind
- sowohl zur reinen Informationsversorgung von Fach- und Führungskräften
- als auch als Datenbasis für anspruchsvolle Analysen
z.B. Kalkulationen im Rahmen von Marktprognosen und Investitionsentscheidungen
• in allen betrieblichen Funktionsbereichen und Branchen
- z.B. Handelsketten und Versandhäusern, Banken und Versicherungen,
Energieversorgern, kommunalen Organisationen, Chemieunternehmen
und Stahlerzeugern
59
Grundlagen des On-Line Analytical Processing (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Evaluationsregeln zur Feststellung der OLAP-Fähigkeit nach Edgar F. Codd (1)
Codd formulierte und veröffentlichte erstmalig Anforderungen in Form von zwölf
Evaluationsregeln zur Feststellung der OLAP-Fähigkeit von Informationssystemen.
• Mehrdimensionale konzeptionelle Perspektiven
- Analyse betriebswirtschaftlicher Kennzahlen (z. B. Umsatz, Kosten)
entlang verschiedener Dimensionen (z. B. Kunde, Produkt, Zeit)
• Transparenz
- Nahtlose Integration in bestehende Informationssystemlandschaft
- Alle verfügbaren Informationen sind dem Anwender nach gleichen
optischen Gestaltungskriterien zu präsentieren.
60
OLAP-Anforderungen nach Codd (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Evaluationsregeln zur Feststellung der OLAP-Fähigkeit nach Edgar F. Codd (2)
• Zugänglichkeit
- Zugriff auf zahlreiche heterogene unternehmensinterne und -externe
Datenquellen und Datenformate
• Stabile Antwortzeiten bei der Berichterstattung
- Unabhängig vom Datenvolumen und der Anzahl der Dimensionen
• Client-Server-Architektur
- Aufgrund der Datenvolumina und der Komplexität der Abfragen sollten
eine verteilte Programmausführung wie auch eine verteilte Datenhaltung
möglich sein.
61
OLAP-Anforderungen nach Codd (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Evaluationsregeln zur Feststellung der OLAP-Fähigkeit nach Edgar F. Codd (3)
• Grundprinzip der gleichgestellten Dimensionen
- In ihrer Wertigkeit sollten die Dimensionen gleichgestellt sein.
- Einheitlicher Befehlsumfang zum Aufbau, Strukturieren, Bearbeiten
und Pflegen der Dimensionen
• Dynamische Verwaltung „dünn besetzter“ Matrizen
- Dünn besetzte Matrizen resultieren aus dem Umstand,
dass in multi-dimensionalen Datenmodellen nicht alle
denkbaren Kombinationen der Dimensionselemente
werttragende Verbindungen eingehen.
• Unbegrenzte Anzahl an Dimensionen und Aggregationsstufen
62
OLAP-Anforderungen nach Codd (III)
Jahr
Pro
dukt
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Evaluationsregeln zur Feststellung der OLAP-Fähigkeit nach Edgar F. Codd (4)
• Mehrbenutzerunterstützung
• Unbeschränkte dimensionsübergreifende Operationen
• Intuitive Datenmanipulation
- Eine einfache und ergonomische Benutzerführung und
Benutzungsoberfläche soll das intuitive Arbeiten in der
Datenbasis mit wenig Lernaufwand ermöglichen.
• Flexibles Berichtswesen
63
OLAP-Anforderungen nach Codd (IV)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Fast Analysis of Shared Multidimensional Information (FASMI) (1)
• Fast
- Stabile Antwortzeiten
(i.d.R. fünf Sekunden, einfache Abfragen innerhalb von einer Sekunde,
komplexe Abfragen sollten kaum mehr als 20 Sekunden dauern)
- Untersuchungen haben gezeigt, dass bei Antwortzeiten von 30 Sekunden
und mehr Anwender annehmen, dass die Abfrage fehlgeschlagen ist.
• Analysis
- Beherrschung beliebiger Businesslogik und statistischer Analysen
• „ What-If“-Betrachtungen
• „How to achieve“-Betrachtungen
- Intuitive Benutzung
64
OLAP-Anforderungen nach Pendse und Creeth (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Fast Analysis of Shared Multidimensional Information (FASMI) (2)
• Shared
- Mehrbenutzerbetrieb
- Implementierung geeigneter Sicherheitsanforderungen zur Wahrung der
Vertraulichkeit der Daten
• Multidimensional
- Unterstützung multidimensionaler konzeptioneller Sichten auf die zugrunde-
liegenden Daten
- Hierarchien
• Information
- Zugriff auf alle benötigten Daten und abgeleiteten Informationen
- Verarbeitung großer Datenvolumina
65
OLAP-Anforderungen nach Pendse und Creeth (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Betriebswirtschaftliche Variablen
(Messgrößen, Kennzahlen, Fakten)
Dimensionen
Dimensionshierarchien
Regeln
66
Multidimensionale Datenstrukturen (I)
Bausteine multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Visualisiert werden multidimensionale Datenmodelle mit einem Würfel (Cube)
• Kanten des Würfels: Dimensionen
• Würfelzellen: Kennzahlen
67
Multidimensionale Datenstrukturen (II)
Darstellung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Betriebswirtschaftliche Variablen (Kennzahlen) (1)
• Kennzahlendefinition
- Zahl, die betriebliche und außerbetriebliche Informationen
in aussagekräftiger, komprimierter Form wiedergibt
• Abgrenzungsmerkmale
- Gegenstand
(Mengen / Werte, Zeitpunkt / Zeitraum)
- Objektbereich
(Gesamtwirtschaftlich, Konzern, Teilbetrieb)
68
Multidimensionale Datenstrukturen (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Betriebswirtschaftliche Variablen (Kennzahlen) (2)
• geordnete Anzahl von Kennzahlen, die in einer Beziehung zueinander stehen
und als Gesamtheit über einen Sachverhalt vollständig informieren
• Spitzenkennzahl liefert die betriebswirtschaftlich wichtigste Aussage des
Systems in komprimierter Form
- DuPont-Kennzahlensystem
- RL-Kennzahlensystem
- ZVEI-Kennzahlensystem
- Balanced Scorecard
• Finanzen
• Kunden
• Geschäftsprozesse
• Lernen/Wachstum
69
Multidimensionale Datenstrukturen (IV)
Auszug: DuPont-Kennzahlensystem
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Verdichtungshierarchien
• Eine Dimensionshierarchie wird als ein endlicher Baum definiert, der durch
die einzelnen Elemente (Dimensionsausprägungen) gebildet wird.
Level eines Knotens
Anzahl der Kanten auf dem Weg vom Knoten zum Blatt
Tiefe eines Knotens
Anzahl der Kanten auf dem Weg vom Knoten zur Wurzel
Generation eines Knotens
Tiefe + 1
70
Multidimensionale Datenstrukturen (V)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Parallele Hierarchien
• Mehrfache Verdichtungshierarchien
Einzelne Elemente einer Dimension werden auf verschiedene Arten verdichtet.
• Hierarchisierung der Monate
- nach Quartalen
- nach saisonalen Aspekten
• Hierarchisierung der Kunden
- nach sachlichen Kriterien
(A-, B-, C-Kunden)
- nach Branchen
71
Multidimensionale Datenstrukturen (VI)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Navigieren in den Daten entspricht dem „Drehen, Wenden und Durchschneiden“
des OLAP-Würfels
• Pivoting / Rotation
• Slicing & Dicing
• Drill-Down & Roll Up
72
Navigation in multidimensionalen Datenstrukturen (I)
45 60 56
15 54 80
23 40 45
Kunde
Pro
du
kt
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
73
Navigation in multidimensionalen Datenstrukturen (II)
Pivoting / Rotation
• Rotation des Datenwürfels durch Drehen oder Kippen, um eine andere Perspektive
auf die Daten zu ermöglichen.
• Drehen des Datenwürfels, so dass (mindestens)
eine andere Dimension sichtbar wird.
• Klassische OLAP-Analyse
(Rotation von Produkt, Zeit → Vertriebsbereich, Zeit)
Pro
dukt
Ver
trie
bsbe
reic
h
Zeit
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Slicing & Dicing
• Slicing
- „Ausschneiden von Datenscheiben“
- Filtersetzung
74
Navigation in multidimensionalen Datenstrukturen (III)
• Dicing
- Gleichzeitige Slicing-Vorgänge in unterschiedlichen
Dimensionen
- Auf diese Weise wird ein kleinerer Würfel erzeugt,
der einen Teilbereich des Gesamtwürfels enthält.
Dicing
Alle Produkte
über den gesamten Zeitraum
für einen bestimmten Kunden
Alle Produkte
über alle Kunden
zu einem bestimmten Zeitpunkt
Alle Kunden
über den gesamten Zeitraum
für ein bestimmtes Produkt
Slicing
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
Drill Down & Roll Up
• Mithilfe des Drill Down können aggregierte Daten auf unterschiedlicher Detailtiefe
betrachtet werden - von der höchsten
bis zur untersten Aggregationsebene.
• Der umgekehrte Weg zum gröberen
Überblick wird als Roll Up bezeichnet.
• Klassische OLAP-Analyse
(Produktgruppe → Produkt)
75
Navigation in multidimensionalen Datenstrukturen (IV)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.3 On-Line Analytical Processing
76
Navigation in multidimensionalen Datenstrukturen (V)
Drill Down
Roll Up
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
2 Business Intelligence und Business Analytics
77
2.1 Begriffsbestimmungen
2.2 Data Warehouse
2.3 On-Line Analytical Processing
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
2.4 Modellierung multidimensionaler Datenstrukturen
78
Klassifikation der Datenmodelle anhand ihrer Nähe zur Realwelt
• Semantisches Datenmodell
- Brücke zwischen Realwelt und logischem Datenmodell
- Realitätsausschnitt wird abstrahierend in einem
Modell abgebildet
- DV-unabhängig
• Logisches Datenmodell
- Ebenfalls unabhängig von der physischen Repräsentation
- Ausrichtung an der für die Datenspeicherung
einzusetzenden DB-Technologie
• Physisches Datenmodell
- Aspekte der physischen Speicherung und
Speicheroptimierung
Grundlagen (I)
Fachkonzept
DV-Konzept
Implementierung
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Entwurfsebene Entwurfsmethode
Konzeptueller (semantischer)
Entwurf
• Multidimensionales ERM
• Dimensional Fact Modeling
• Application Design for
Analytical Processing Technologies (ADAPT)
Logischer Entwurf • Starschema
• Erweitertes SAP-Starschema
• Snowflake Schema
• Galaxien
Physischer Entwurf • Speicherstrukturen
• Zugriffsmechanismen
• Datenbanktuning
79
Grundlagen (II)
Ausgewählte Entwurfsmethoden zur Modellierung multidimensionaler Datenstrukturen
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Multidimensionales Datenmodell
• "Grundkomponenten eines multidimensionalen Datenbankdesign sind geordnete
Mengen von sachlogisch zusammenhängenden Dimensionselementen, die mit
Aggregations- und Disaggregationsoperatoren strukturiert werden können.
• Ein multidimensionaler Datenraum wird durch die strukturellen Daten (Dimensionen)
aufgespannt.
• Die materiellen Daten (auch als Faktdaten, Kennzahlen oder Werte bezeichnet)
werden entsprechend des Mapping und der Synchronisation aus den transaktions-
orientierten Systemen geladen.“
80
Grundlagen (III)
2.4 Modellierung multidimensionaler Datenstrukturen
[vgl. Chamoni, Gluchowski: Analytische Informationssysteme 1998]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Multidimensionales Entity Relationship Modell (1)
• Grundlage ist die bereits bekannte graphische Modellierungssprache für semantisch
konzeptionelle Datenmodelle: Entity Relationship Modell (ERM)
• Diese ist mit den nachfolgenden
neuen Konstruktionselementen
erweitert worden:
• Faktenrelation
• Dimensionsfeld
• hierarchische Beziehung
• Prinzip der Minimalität,
daher nur fünf Metaobjekte
81
Semantische Datenmodellierung (I)
2.4 Modellierung multidimensionaler Datenstrukturen
Konstruktionselement Graphische Notation
Zentrale Faktenrelation
Dimensionsfeld
Variable oder Attribut
Hierarchische Beziehung
Beziehung
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Multidimensionales Entity Relationship Modell – Beispiel (2)
82
Semantische Datenmodellierung (II)
2.4 Modellierung multidimensionaler Datenstrukturen
Filiale Gebiet Land
Region
Gesamt
Absatz Umsatz
Vertrieb Tag
Monat
Quartal
Jahr
Szenario
Produkt
Multidimensionales ERM
[Hahne 2006]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Dimensional Fact Modeling (1)
• … wurde 1998 von Golfarelli, Maio und Rizzi als formale und grafische
Beschreibungssprache für konzeptionelle multidimensionale Datenmodelle
vorgestellt.
Die Beschreibungselemente in diesem Ansatz sind:
• Fakten stellen die relevanten betriebswirtschaftlichen Betrachtungsgegenstände dar,
denen konkrete Kennzahlen in Form von Attributen zugeordnet sind.
• Die Aufgliederungsrichtungen, nach
denen die Fakten betrachtet werden
können, sind die Dimensionen.
• Dimensionen werden durch Hierarchien
weiter strukturiert.
83
Semantische Datenmodellierung (III)
2.4 Modellierung multidimensionaler Datenstrukturen
Beschreibungselement Graphische Notation
Fakten
Dimension
Hierarchie
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Dimensional Fact Modeling (2) - Beispiel
84
Semantische Datenmodellierung (IV)
2.4 Modellierung multidimensionaler Datenstrukturen
Hierarchie
Nicht-dimensionales
Attribut
Dimension
Fakt-AttributFakt
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Dimensional Fact Modeling (3)
• Für die Aggregation entlang der verschiedenen Hierarchiestufen ist
die Addition als Standard vorgesehen.
• Für Fakt-Attribute, die sich
nicht sinnvoll entlang aller
Dimensionen addieren las-
sen, sieht das Modell eine
gesonderte Notation der
Verdichtungsoperation vor.
(im Beispiel: die Fakt-Attribute
Käuferzahl und Bestand)
85
Semantische Datenmodellierung (V)
2.4 Modellierung multidimensionaler Datenstrukturen
Eingeschränkte Addierbarkeit
für Kennzahl „Käuferzahl“ in
allen Dimensionen
Alternative Aggregation
für Kennzahl „Bestand“ in
Dimension „Woche“
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Dimensional Fact Modeling (4)
• Das Dimensional Fact Modeling ist mathematisch formal definiert.
Nachteile
• In den Hierarchien sind nur 1:n – Beziehungen vorgesehen.
• Für nicht-additive Kennzahlen besteht zwar die Möglichkeit der Kennzeichnung,
konkrete Berechnungsvorschriften sind jedoch nicht Bestandteil des Modells.
Somit ist auch eine Darstellung von Kennzahlensystemen nicht möglich.
86
Semantische Datenmodellierung (VI)
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Multidimensional Data Model (MD-Modell)
• … wurde 1997 von Cahibbo und Torlone als grafische Beschreibungssprache für
konzeptionelle multidimensionale Datenmodelle vorgestellt.
• In seinen Konstruktionselementen
wie im inneren Aufbau weist das
MD-Modell gewisse Parallelen
zum Dimensional Fact Modeling auf.
87
Semantische Datenmodellierung (VII)
2.4 Modellierung multidimensionaler Datenstrukturen
Beschreibung eines
Dimensionslevels
Variablen
f-node
[Hahne 2006]
Dimensionslevel
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Application Design for Analytical Processing Technologies (1)
• … wurde 1996 zunächst von Bulos als semantische Notationsform für
multidimensionale Datenmodelle vorgestellt.
• Die Basisstruktur von ADAPT sieht
die Verwendung von
• Datenwürfeln,
• Dimensionen und
• Kennzahlen
vor, die durch Verbindungselemente
verknüpft werden.
88
Semantische Datenmodellierung (VIII)
2.4 Modellierung multidimensionaler Datenstrukturen
ADAPT - Grundlegende Modellierungselemente
ADAPT - Verbindungselemente
Berechnungs-
formel
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Application Design for Analytical Processing Technologies (2) - Beispiel
89
Semantische Datenmodellierung (IX)
2.4 Modellierung multidimensionaler Datenstrukturen
Cube Vertrieb mit Dimensionen
Dimension Produkt
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Application Design for Analytical Processing Technologies (3) - Beispiel
90
Semantische Datenmodellierung (X)
2.4 Modellierung multidimensionaler Datenstrukturen
Hierarchy Unbalancierte Produkthierarchie
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Klassisches Star Schema (1)
• Unter dem Begriff Star Schema werden verschiedene logische Datenmodelle
zur Modellierung eines Data Warehouse auf Basis relationaler Datenbanken
zusammengefasst.
• Diese Modelle zielen darauf ab,
mehrdimensionale Datenstrukturen
in Relationenmodelle abzubilden.
91
Logische Datenmodellierung (I)
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Klassisches Star Schema (2) – Abbildung von Hierarchien in Dimensionstabellen
92
Logische Datenmodellierung (II)
2.4 Modellierung multidimensionaler Datenstrukturen
Durch den Level-Eintrag wird die Zuordnung von
Werten zu einer Hierarchieebene sichergestellt.
Aggre
gationsebene
Hierarchiestruktur
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Klassisches Star Schema (3)
• Darstellung im Tool „Oracle Business Analysis Suite“
93
Logische Datenmodellierung (III)
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Snowflake Schema (1)
… entsteht, indem
• die Dimensionstabellen des klassischen Star Schema normalisiert werden -
„normalized by level-attribute“ -
und
• aggregierte Fakten in Detail-Fakten-
tabellen abgespeichert werden.
94
Logische Datenmodellierung (IV)
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Snowflake Schema (2)
95
Logische Datenmodellierung (V)
2.4 Modellierung multidimensionaler Datenstrukturen
Dimensionstabellen
„normalized by level-attribute“
n:1
n:1
Level 0
Level 1
Level 2
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Fact Constellation Schema (1)
… kann aus einem klassischen Star Schema abgeleitet werden.
Die Idee ist, die aggregierten Werte aus der Faktentabelle
in separate Faktentabellen auszulagern.
Dadurch wird in den Dimensionstabellen
kein Level-Eintrag mehr benötigt.
96
Logische Datenmodellierung (VI)
2.4 Modellierung multidimensionaler Datenstrukturen
Aggregation
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Galaxien (1)
In einem klassischen Star Schema werden alle Fakten in nur einer einzigen
Tabelle abgelegt.
• Problem
Sind viele Fakten sehr unterschiedlicher Dimensionierung zu speichern, bringt
dies Nachteile mit sich. Da der Primärschlüssel der Faktentabelle sich aus den
Primärschlüsseln aller Dimensionstabellen zusammensetzt, werden unnötig viele
Null-Werte im Primärschlüssel der Faktentabelle generiert.
• Verbesserung
Trennung in Faktentabellen, in welchen jeweils nur Fakten gleicher Dimensionierung
gespeichert werden.
97
Logische Datenmodellierung (VII)
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Galaxien (2)
• Trennung in Faktentabellen, in welchen jeweils nur Fakten gleicher
Dimensionierung gespeichert werden.
98
Logische Datenmodellierung (VIII)
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Galaxien (3) - Beispiel
99
Logische Datenmodellierung (IX)
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Zusammenfassung
• Star-Schema-Modellierung erweist sich als geeignete Technik zur relationalen
Implementierung multidimensionaler Datenstrukturen:
• wenige Tabellen,
• wenige und einfache Beziehungen zwischen den Tabellen,
• leicht nachvollziehbar,
• auswertungs- und nicht erfassungsorientiert.
• Grundbausteine multidimensionaler Datenstrukturen finden sich in Fakten- und
Dimensionstabellen wieder.
• Auch Dimensionsanomalien lassen sich abbilden.
• Resultierende Datenmodelle sind auswertungs- und nicht erfassungsorientiert.
(Denormalisierung)
100
Logische Datenmodellierung (X)
2.4 Modellierung multidimensionaler Datenstrukturen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 101
EntscheidungsunterstützungssystemeReporting
Prof. Dr. Peter Chamoni
Sommersemester 2017
Mercator School of Management
Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence
Prof. Dr. Peter Chamoni
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
102102
Literatur
• Gluchowski, Peter (2010):
Techniken und Werkzeuge zur Unterstützung des betrieblichen Berichtswesens.
In: Chamoni, Peter / Gluchowski, Peter [Hrsg.]:
Analytische Informationssysteme:
Business-Intelligence-Technologien und -Anwendungen,
4.Aufl., Berlin: Springer.
• Kemper, Hans-Georg / Baars, Henning / Mehanna, Walid (2010):
Business Intelligence – Grundlagen und praktische Anwendungen: eine Einführung in
die IT-basierte Managementunterstützung,
3. Aufl. Wiesbaden: Vieweg+Teubner.
• Horváth, Péter (2011):
Controlling, 12. Aufl., München: Vahlen.
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
1 Grundlagen Entscheidungsunterstützungssysteme
103
2 Business Intelligence und Business Analytics
3 Reporting
4 Dashboards und Visualisierung
5 Knowledge Discovery in Databases
6 Data Mining
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
104104
3 Reporting
3.1 Betriebliches Berichtswesen
3.2 Betriebliche Berichtssysteme
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
3.1 Betriebliches Berichtswesen
Bericht
• Im betrieblichen Kontext:
Überblick betriebswirtschaftlicher Sachverhalte zu einem abgegrenzten
Verantwortungsbereich in aufbereiteter Form
• Aufbereitung erfolgt durch Visualisierung von Sachzusammenhängen
beispielsweise in Diagrammen
• Die Erzeugung und Bereitstellung von Berichten wird unter dem Begriff
betriebliches Berichtswesen zusammengefasst.
105
Grundlagen (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
3.1 Betriebliches Berichtswesen
Merkmale zur Kennzeichnung und Gestaltung von Berichten
106
Grundlagen (II)
Berichtsinhalt
• Gegenstand
• Detaillierung
• Breite
• Genauigkeit
Berichtsform
• Darstellungsart
• Struktur
• Präsentationsmedium
• Übertragungsweg
Berichtszeit
• Berichtsintervall
• Berichtszeitraum
Berichtsinstanz
• Empfänger
• Verantwortlicher
• Ersteller
Berichtszweck
• Dokumentation
• Entscheidungs-
vorbereitung
• Auslösen Bearbei-
tungsvorgang
• Kontrolle
[Koch 1994]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
3.1 Betriebliches Berichtswesen
Berichtsarten (1)
Standardberichte
• Basieren weitgehend auf dem einmalig ermittelten Informationsbedarf
einzelner Stellen und Abteilungen.
• Hoher Detaillierungsgrad
• Adressat muss die für ihn relevanten Informationen aus dem Bericht herausfiltern.
• Berichtserstellung und -verteilung erfolgt in festgelegten Abständen,
ein Eingreifen in diesen Rhythmus ist i.d.R. nicht möglich.
• Anpassung der Berichtsinhalte durch den Adressaten nicht möglich.
107
Grundlagen (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
3.1 Betriebliches Berichtswesen
Berichtsarten (2)
Abweichungsberichte
• Hervorhebung von Sachverhalten, die individuelle Entscheidungen erfordern.
• Auslöser für die Generierung eines Abweichungsberichtes ist i.d.R. die
Überschreitung festgelegter Toleranzgrenzen.
Bedarfsberichte
• Werden nach Bedarf angefordert, beispielsweise zur Analyse bestimmter
kritischer oder strategisch relevanter Sachverhalte
• Unterliegen keinem festen Rhythmus oder Muster
108
Grundlagen (IV)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 109
Berichtsgestaltung und -erstellung
Berichtsaufnahme und -diskussion
Berichts-
verwaltung
Berichtsverteilung
[Leßweng 2003]
Prozesse des betrieblichen Berichtswesens (I)
3.1 Betriebliches Berichtswesen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Berichtsgestaltung
• Festlegung des Layouts und der empfängerorientierten
Inhalte eines Berichts
Berichtserstellung
• Ausfüllen des Layouts und der Inhalte mit zeitpunkt- oder
periodenbezogenen Daten
• Zusammenfassung zum eigentlichen Bericht
Berichtsverteilung
• Verteilung der Ergebnisse an die jeweiligen Empfänger
• Ggf. Präsentation und zusätzliche Erläuterungen
110
3.1 Betriebliches Berichtswesen
Prozesse des betrieblichen Berichtswesens (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Berichtsverwaltung
• Speicherung und Katalogisierung von Berichten
Berichtsaufnahme
• Aufnahme der in einem Bericht dargestellten Informationen
durch den jeweiligen Adressaten
• Aufnahme kann direkt nach der Generierung oder zu einem
späteren Zeitpunkt erfolgen.
Berichtsdiskussion
• Ggf. Diskussion über Berichtsinhalte mit Experten aus der Fachabteilung
111111
3.1 Betriebliches Berichtswesen
Prozesse des betrieblichen Berichtswesens (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 112112112
Gliederung
3 Reporting
3.1 Betriebliches Betriebswesen
3.2 Betriebliche Berichtssysteme
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
3.2 Betriebliche Berichtssysteme
113113
Berichtssysteme
Periodische
Berichtssysteme
(Standard-Berichtswesen)
Passive
Berichtssysteme
Aktive
Berichtssysteme
Aperiodische
Berichtssysteme
(Früherkennungssysteme)
Ad-hoc-
Berichtssysteme
[Gluchowski 1998]
Klassifizierung von Berichtssystemen (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
3.2 Betriebliche Berichtssysteme
Aktive Berichtssysteme
• Erstellung und Verteilung von Standard- und Abweichungsberichten
• Einmalige Spezifikation der Berichtsinhalte und -formate
• Selbstständige Erstellung der Berichte nach einem festen Muster
• Zustellung an den jeweiligen Adressaten
• Unterscheidung in
- Periodische Berichtssysteme (Standardberichte)
• Generierung von Berichten in festen Zeitabständen
• Älteste und etablierteste Form
- Aperiodische Berichtssysteme (Abweichungsberichte)
• Ergänzung zu periodisch generierten Berichten
• Automatische Generierung von Berichten und Benachrichtigung bei
Überschreitung von festgelegten Grenzwerten
• Einsatz für die betriebliche Früherkennung zur Identifikation strategischer
Potenziale und Gefahren114
Klassifizierung von Berichtssystemen (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
3.2 Betriebliche Berichtssysteme
Passive Berichtssysteme
• Erstellung von Bedarfsberichten
• Keine selbstständige Generierung von Berichten
• Berichte werden auf Anforderung des Benutzers erstellt
• Erstellung individueller und bedarfsspezifischer Berichte
• IT-Kenntnisse beim Anwender zur Zusammenstellung des Layouts
und der Inhalte notwendig
• Umsetzung von Ad-hoc-Berichtssystemen häufig durch OLAP-Werkzeuge
115
Klassifizierung von Berichtssystemen (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 116
EntscheidungsunterstützungssystemeDashboards und Visualisierung
Prof. Dr. Peter Chamoni
Sommersemester 2017
Mercator School of Management
Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence
Prof. Dr. Peter Chamoni
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
117117
Literatur
• Eckerson, Wayne W. (2011):
Performance Dashboards: Measuring, Monitoring, and Managing Your Business,
2. Aufl. New Jersey: John Wiley & Sons.
• http://www.bissantz.com/
• http://www.hichert.com/
• https://www.microstrategy.com/de/capabilities/dashboards/
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
1 Grundlagen Entscheidungsunterstützungssysteme
118
2 Business Intelligence und Business Analytics
3 Reporting
4 Dashboards und Visualisierung
5 Knowledge Discovery in Databases
6 Data Mining
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
119119
4 Dashboards und Visualisierung
4.1 Dashboards
4.2 Visualisierung
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
• Hohe Komplexität in Unternehmen durch
- Verschiedene Gesellschaften
- Viele Geschäftseinheiten und Standorte
- Unterschiedliche Produkte, Prozesse und Strategien
- Vielzahl von unterstützenden Systemen
• Unternehmen benötigen ein Instrument, das die Unternehmensstrategie
übersetzt in
- Ziele
- Metriken
- Initiativen
- Aufgaben
120
Ausgangssituation
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
121
Instrumente zur Visualisierung von (kritischen) Informationen auf einen Blick
Dashboard
• Visualisierung von Informationen durch Graphen, Diagramme etc.
• Darstellung von Ereignissen und Prozessen
• Dynamische Betrachtung möglich
• Regelmäßige Aktualisierung
Scorecard
• Überwachung von Ergebnissen
eines Prozesses bezogen auf den Zielerreichungsgrad
• Zusammenfassung von Daten über einen bestimmten Zeitraum
• Graphen, Diagramme etc. werden in der Regel ausführlich kommentiert
Dashboards vs. Scorecards
[Eckerson 2006]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
122
Hintergrund der BSC
• Entwickelt von Robert S. Kaplan und David P. Norton
• Veröffentlicht 1992 im Harvard Business Review unter dem Titel:
„The Balanced Scorecard – Measures that Drive Business Performance“
• Entwicklung auf Grund der Kritik an
bestehenden Kennzahlensystemen
• BSC berücksichtigt erstmals nicht-
monetäre Kennzahlen
Balanced Scorecard (I)
Perspektiven einer BSC
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
123123123
[Kaplan, Norton 1996]
Balanced Scorecard (II)
BSC als Managementsystem
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
124
Nutzen von Dashboards
• Strategie kommunizieren
• Strategie weiterentwickeln
• Sichtbarkeit verbessern
• Koordination verbessern
• Motivation erhöhen
• Konsistente Sicht auf das Unternehmen ermöglichen
• Kosten und Redundanzen verringern
• Eigenständigkeit der Nutzer erhöhen
• Handlungsrelevante Informationen liefern
Performance Dashboard (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
125125
Performance Dashboard (II)
• „A performance dashboard is a multilayered application built on a business
intelligence and data integration infrastructure that enables organizations to
measure, monitor and manage business performance more effectively“
[Eckerson 2006]
• Performance Dashboards gehen über die reine Darstellung/Visualisierung
von Informationen hinaus.
• umfassen beispielsweise auch Portale, Business-Intelligence-Werkzeuge
und Analysewerkzeuge
• Informationssystem für Unternehmen zur Erreichung strategischer Ziele und
zur Optimierung der Performance
• Synonym: performance management system
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
126
Schichten eines Performance Dashboard
Performance Dashboard (III)
[Eckerson 2006]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
127
Anwendungsbereiche von Performance Dashboard
Performance Dashboard (IV)
[Eckerson 2006]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.1 Dashboards
128
Arten von Performance Dashboard
Performance Dashboard (V)
[Eckerson 2006]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
129129129129129
4 Dashboards und Visualisierung
4.1 Dashboards
4.2 Visualisierung
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.2 Visualisierung
Empfehlungen (1)
• Zunächst auf Daten und Prozesse fokussieren
- Vor der graphischen Gestaltung: Metriken und Ziele definieren
- Daten müssen aus den entsprechenden Systemen geliefert werden
• Anwender und deren Anforderungen kennen
- Führungskräfte
- Power User
• Komplexität gering halten
- Übersichtlichkeit
- Schnelle und einfache Bedienbarkeit
130130130130130130130130130
Design-Prozess von Dashboards (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.2 Visualisierung
Empfehlungen (2)
• Optik und Funktionalitäten in allen Anwendungsbereichen optimieren
131131131131131131131131131
Design-Prozess von Dashboards (II)
[Eckerson 2006]
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.2 Visualisierung
Empfehlungen (3)
• Kompetenz für die visuelle Gestaltung schaffen
- Internes oder externes Know-How
- Feedback bei der Gestaltung einholen
• Prototypen einsetzen
- Zufriedenheit der Anwender mit Layout testen
- Gestaltung in Rücksprache mit Anwendern optimieren
132132132132132132132132132
Design-Prozess von Dashboards (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.2 Visualisierung
• Informationen auf einem einzigen Bildschirm darstellen
- Anwender sollten nicht scrollen oder ein neues Fenster öffnen müssen.
- (Erfolgskritische) Informationen müssen auf einen Blick erfasst werden können.
• Anzahl von Metriken und Objekten auf dem Bildschirm minimieren
- Informationsbedarf und Reihenfolge, in der ein Anwender die Informationen
sehen möchte, müssen bekannt sein.
- 3-7 Metriken haben die größte visuelle Wirkung.
- Möglich: Anwender kann sich die Metriken selbst zusammenstellen.
(Personalisierung)
133133133133133133133133133133133
Visuelle Gestaltung der Benutzeroberfläche (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.2 Visualisierung
• Graphische Symbole sparsam verwenden
- Zusammenfassen von Informationen durch Verwendung von Graphiken
- Überladene Graphiken vermeiden
- Sinnvoller Einsatz von Ampeln, Thermometern etc.
134134134134134134134134134134134134
Visuelle Gestaltung der Benutzeroberfläche (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.2 Visualisierung
• Zusammenhänge in verkürzter Form darstellen
- Anwender soll schnell erfassen können, was dargestellt wird
- Status
• Darstellung der aktuellen Situation
• Häufig dargestellt durch Farben
• Z.B. rot = dringend/schlecht, grün = gut
- Trend
• Prognose für die nächste(n) Periode(n)
• Darstellung von Aufwärts- oder Abwärtstrends
• Darstellung z.B. durch + (plus) und – (minus)
- Abweichung
• Darstellung von Über- oder Untererfüllung eines Ziels
• Darstellung z.B. in Tabellen oder Liniendiagrammen
135135135135135135135135135135135135135
Visuelle Gestaltung der Benutzeroberfläche (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
4.2 Visualisierung
136136136136136136136136136136136136136
Visuelle Gestaltung der Benutzeroberfläche (IV)
• Farbsättigung verändern statt verschiedene Farbtöne nutzen
Einheitliches Layout des Dashboards
Hervorheben von wichtigen Informationen durch Kontraste
Vermeidung von Fehlinterpretationen durch farbenblinde Anwender
• Position und Anordnung von Elementen beachten
Aufnahme von Informationen erfolgt von oben links nach unten rechts
Gruppierung von Informationen zur Darstellung von Zusammenhängen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 137
EntscheidungsunterstützungssystemeKnowledge Discovery in Databases
Prof. Dr. Peter Chamoni
Sommersemester 2017
Mercator School of Management
Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence
Prof. Dr. Peter Chamoni
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
138138
Literatur
• Ester, Martin /Sander, Jörg (2000):
Knowledge Discovery in Databases: Techniken und Anwendungen.
Berlin: Springer.
• Fayyad, Usama M. / Piatetsky-Shapiro, Gregory / Smyth, Padhraic (1996):
From data mining to knowledge discovery: An overview.
In: Fayyad, Usama M. / Piatetsky-Shapiro, Gregory / Smyth, Padhraic /
Uthurusamy, Ramasamy [Hrsg.]:
Advances in knowledge discovery and data mining.
Menlo Park et al. : AAAI Press, S. 1-34.
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
1 Grundlagen Entscheidungsunterstützungssysteme
139
2 Business Intelligence und Business Analytics
3 Reporting
4 Dashboards und Visualisierung
5 Knowledge Discovery in Databases
6 Data Mining
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
140140
5 Knowledge Discovery in Databases
5.1 Begriffsabgrenzung
5.2 Prozessmodelle
5.3 Ausgewählte Prozessphasen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.1 Begriffsabgrenzung
… Wir sind zwar konkursreif,
aber dank Data Mining wissen
wir genau warum ... !
141
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.1 Begriffsabgrenzung
142142
Knowledge Discovery in Databases
… beschreibt den
“… non-trivial process of identifying valid, novel, potentially useful, and ultimately
understandable patterns in data ...” [Fayyad, et al. 1996]
Bemerkungen
• process
KDD ist der Prozess der (semi-) automatischen Extraktion von implizit vorhandenem
Wissen aus umfangreichen Datenbeständen, das
- valid → im statistischen Sinne
- novel → bisher nicht explizit vorhanden, kein „Allgemeinwissen“
- potentially useful → für eine gegebene Anwendung
ist.
Grundbegriffe des Knowledge Discovery in Databases (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Knowledge
Discovery
Expert
Systems
Machine
Learning
StatisticsDatabases
Visualization
5.1 Begriffsabgrenzung
143143
KDD als interdisziplinäres Forschungsgebiet
• KDD nutzt und integriert eine Vielzahl von Methoden und Techniken
aus verschiedenen Gebieten
Grundbegriffe des Knowledge Discovery in Databases (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.1 Begriffsabgrenzung
144144
Data Mining
Zwei alternative Bedeutungen
Bedeutung 1
• Synonym für KDD: beinhaltet alle Aspekte des Prozesses
• Diese Bedeutung ist insbesondere in der Praxis weit verbreitet!
Bedeutung 2
Data Mining bezeichnet alle Aktivitäten
“... that find a logical or mathematical description, eventually of a complex nature,
of patterns and regularities in a set of data ...” [Decker, Focardi 1995]
• Teil des KDD: Mustergewinnung / Modellierung, Interpretation
Grundbegriffe des Knowledge Discovery in Databases (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 145145
Gliederung
5 Knowledge Discovery in Databases
5.1 Begriffsabgrenzung
5.2 Prozessmodelle
5.3 Ausgewählte Prozessphasen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.2 Prozessmodelle
146
• Die Definition nach Fayyad betont den Prozesscharakter.
• Der Prozess ist interaktiv und iterativ.
- Anwender muss entscheiden.
- Führt der Prozess nicht zu
verwertbaren Ergebnissen,
sind Rücksprünge in die vor-
herigen Phasen vorgesehen.
KDD-Prozess nach Fayyad
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.2 Prozessmodelle
147
• CRISP-DM (cross-industry standard process for data mining) ist ein branchen- und
anbieterneutraler Industriestandard.
• Er betont
- das Verständnis der betriebswirtschaftlichen
Problemstellung,
- das Verständnis der zu Grunde liegenden
Datenbasis sowie
- den zyklischen Charakter von DM-Projekten.
• Herauszustellen sind die engen Wechselwirkungen
zwischen den Phasen
- Business und Data understanding sowie
- Data preparation und Modeling.
KDD-Prozess – CRISP-DM
[Chapman et al. 2000]
CRISP - DM
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.2 Prozessmodelle
148
KDD-Prozess - Zeitaufwand
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 149149
Gliederung
5 Knowledge Discovery in Databases
5.1 Begriffsabgrenzung
5.2 Prozessmodelle
5.3 Ausgewählte Prozessphasen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.3 Ausgewählte Prozessphasen
150
• Bildung von Clustern
• Konstruktion eines Klassifikationsmodells
• Konstruktion eines Regressionsmodells
• Entdeckung von Abhängigkeiten
Zielsetzung und Aufgabenstellung (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.3 Ausgewählte Prozessphasen
151
Marketing
Kunden sollen gezielt in Mailingaktionen angesprochen werden
• Frage: „Welche Kundengruppen gibt es?“
• Ziel: Aufteilung der Kunden in Segmente mit ähnlichem Kaufverhalten
• Aufgabe: Bilden von Clustern
• Praxis
- Bankenbereich: 25 % - 30 % Verbesserung der Response-Scores
wurden nachgewiesen
- American Express: 15 % - 20 % Steigerung des Kreditkartengebrauchs
- Spendenaktionen Unicef: 80 % erfolgreichere Spendeneinwerbung
Zielsetzung und Aufgabenstellung - Beispiele (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.3 Ausgewählte Prozessphasen
152
CRM - Kundentreue
Einer Versicherung fällt auf, dass viele Kunden ihre Versicherungen kündigen.
• Frage: „Wie kann man diese Kunden identifizieren?“
• Aufgaben
- Bilden von Clustern
mit dem Ziel, Cluster mit kündigungswilligen Kunden zu identifizieren.
- Klassifikationsmodell
Einteilung der Kunden in die Klassen „kündigungswillig“ und
„nicht kündigungswillig“
Zielsetzung und Aufgabenstellung - Beispiele (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.3 Ausgewählte Prozessphasen
153
Bonitätsanalyse
Ein neuer Kunde einer Bank möchte einen Kredit bekommen.
Es soll eine Bonitätsanalyse durchgeführt werden
• Frage: „Welcher Risikoklasse ist der Kunde zuzuordnen?“
• Aufgabe: Klassifikationsmodell
Vorhersage von Devisen- / Aktienkursen
• Frage: „Wie entwickelt sich der Kurs des Dollars?“
• Aufgabe: Regressionsmodell
Zielsetzung und Aufgabenstellung - Beispiele (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.3 Ausgewählte Prozessphasen
154
Warenkorbanalyse
• Frage: „Welche Artikel werden zusammen gekauft?“
• Aufgabe: Entdecken von Abhängigkeiten
Kreditkartenmissbrauch (fraud detection)
• Frage: „Welche zeitlichen Verhaltensmuster sind festzustellen,
wenn ein Kreditkartenmissbrauch vorliegt?“
• Aufgabe: Entdecken von (temporalen) Abhängigkeiten - Sequenzanalyse
Zielsetzung und Aufgabenstellung - Beispiele (IV)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
5.3 Ausgewählte Prozessphasen
155
Zusammenfassung
Zielsetzung und Aufgabenstellung - Beispiele (V)
Aufgaben
Klassifikation/ Regression
Clusterung
Abhängigkeitsanalyse
Verfahren
Entscheidungsbaum
Künstliche neuronale Netze
Clusterverfahren
Assoziationsanalyse
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
• Auswahl und Verknüpfung der Daten
• Bereinigung von fehlerhaften oder fehlenden Daten
• Löschen von redundanten Daten
• Transformation für die Data-Mining-Phase
• Aufteilung des Datenbestandes
156
Datenvorbereitung
5.3 Ausgewählte Prozessphasen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Datenvorbereitung (I) - Beispiel
Name Alter Region Ort Anz. Kinder
Meier 56 NRW Duisburg 3
Schulz 32 NRW Duisburg Ja
Muster NRW Essen 2
Müller 18 NRW Diusburg 4
157
5.3 Ausgewählte Prozessphasen
fehlende Werte fehlerhafte Werteredundante Werte
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
• Transformation
Nominale Werte → Zahlen
YES → 1
• Pivotisierung
158
Datenvorbereitung (II) - Beispiel
5.3 Ausgewählte Prozessphasen
TID Item 1 Item 2 Item 3 Item 4
1234 1 1 0 1
TID ITEM
1234 Item1
1234 Item2
1234 Item4
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 159
EntscheidungsunterstützungssystemeData Mining
Prof. Dr. Peter Chamoni
Sommersemester 2017
Mercator School of Management
Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence
Prof. Dr. Peter Chamoni
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Organisatorisches
160160
Literatur
• Witten, Ian H. / Frank, Eibe / Hall, Mark A. (2011):
Data mining: Practical Machine Learning Tools and Techniques, 3. Aufl.
Amsterdam: Elsevier.
• Cleve, Jürgen / Lämmel, Uwe (2016):
Data Mining, 2. Aufl. Berlin: De Gruyter Oldenbourg.
• Han, Jiawei / Kamber, Micheline / Pei, Jian (2012):
Data mining: Concepts and Techniques, 3. Aufl. Amsterdam: Elsevier.
• Quinlan, John Ross (1986):
Induction of Decision Trees. In: Machine Learning, 1(1): 81-106.
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
1 Grundlagen Entscheidungsunterstützungssysteme
161
2 Business Intelligence und Business Analytics
3 Reporting
4 Dashboards und Visualisierung
5 Knowledge Discovery in Databases
6 Data Mining
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
162162
6 Data Mining
6.2 Clusterverfahren
6.3 Assoziationsanalyse
6.1 Entscheidungsbaumverfahren
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
163
• Ziel der Anwendung von Entscheidungsbaumverfahren ist die Erzeugung eines
Modells, durch das unbekannte Datenobjekte einer von mehreren vorgegebenen
Klassen zugeordnet werden können.
• Diese Zuordnung geschieht anhand von Regeln, die durch einen Klassifikationsbaum
dargestellt werden können.
• Beispiel:
Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass damit
die Käufergruppe erkannt werden kann, in die der Kunde voraussichtlich gehört.
• Voraussetzung
Datenbestand, dessen Datenobjekte ein ausgezeichnetes Merkmal besitzen, durch
das die Klassenzugehörigkeit angegeben ist.
Einführung
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
• Der Gesamtdatenbestand wird in
eine Trainingsmenge – zur Erstellung des Entscheidungsbaumes – und
eine Testmenge – zur Ermittlung der Klassifikationsgüte –
aufgeteilt.
• Die Trainingsmenge wird dann sukzessive aufgeteilt, so dass sich in den daraus
resultierenden Teilmengen homogenere Gruppen von Datensätzen bezüglich
der Klassifikationsvariablen ergeben.
• Die Aufteilung der Datenmengen kann durch einen (Entscheidungs-) Baum
dargestellt werden, in dem jeder Knoten eine Datenmenge indiziert, dem ein
Homogenitätsmaß zugeordnet wird.
• Erreicht dieses Homogenitätsmaß einen vorgegebenen Wert, so wird der Knoten
einer bestimmten Klasse zugeordnet.
164
Grundsätzliche Arbeitsweise
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
• Für eine Kreditwürdigkeitsprüfung liegen Kundendaten vor wie
Alter, Einkommen usw. Dabei werden im Gesamtdatenbestand
50 % der Datensätze als kreditwürdig und
50 % der Datensätze als nicht-kreditwürdig
bezeichnet.
• Durch eine Aufteilung des Gesamtdatenbestandes bezogen auf
ein Merkmal sollen zwei Teilmengen derart entstehen, dass sich
in der einen Teilmenge mehr Datensätze mit der Eigenschaft
„kreditwürdig“ und in der anderen Teilmenge mehr Datensätze
mit der Eigenschaft „nicht-kreditwürdig“ befinden.
Beide Teilmengen weisen dann eine bessere Homogenität bzgl.
der Klassifikationsvariablen auf als der Ausgangsdatenbestand.
165
Beispiel Kreditwürdigkeitsprüfung (I)
xx
xx
x
x
xx
x
x
x
x
x
x
xx
x
xx
x x
xx
x
Gesamtdatenbestand
kreditwürdigNicht
kreditwürdig
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
166
Beispiel Kreditwürdigkeitsprüfung (II)
* Attribut A: Monatliches Einkommen
Bedingung K1: >= 3000
** Attribut B: Sicherheit vorhanden?
Bedingung K2: ja / nein
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
Regeln
Nachdem ein derartiger Baum generiert worden ist, können nun anhand des Baumes
neuen Datensätzen deren voraussichtliche Klassen zugeordnet werden.
* In obigem Beispiel sind dies:
• WENN ein Mindesteinkommen nicht überschritten wird,
DANN wird der Kredit nicht gewährt.
• WENN ein Mindesteinkommen überschritten wird
und Sicherheiten vorhanden sind,
DANN wird ein Kredit gewährt.
• WENN ein Mindesteinkommen überschritten wird
und keine Sicherheiten vorhanden sind,
DANN wird der Kredit nicht gewährt.
167
Beispiel Kreditwürdigkeitsprüfung (III)
1
32
1
3
2
* Attribut A: Monatliches Einkommen
Bedingung K1: >= 3000** Attribut B: Sicherheit vorhanden?
Bedingung K2: ja / nein
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
168
• Ein Entscheidungsbaum ist ein Baum mit folgenden Eigenschaften:
Ein innerer Knoten repräsentiert ein Attribut.
Eine Kante repräsentiert einen Test auf dem Attribut des Vaterknotens.
Ein Blatt repräsentiert eine der Klassen.
• Konstruktion eines Entscheidungsbaums
Anhand einer Trainingsmenge
Top-Down
• Anwendung eines Entscheidungsbaums
Durchlauf des Entscheidungsbaums von der
Wurzel zu einem der Blätter
Eindeutiger Pfad
Zuordnung des Objekts zur Klasse des erreichten Blatts.
Grundbegriffe
Klasse
Attribut
Test
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
Voraussetzungen
• Trainingsmenge T
• Mindestwert für die Homogenität eines Knotens: min-conf
Algorithmus (Pseudocode)
169
Algorithmus “Entscheidungsbaum-Konstruktion”
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
Zur konkreten Umsetzung von Entscheidungsbaumverfahren ist es notwendig,
eine sog. Split-Strategie festzulegen.
Gegeben
• Trainingsmenge T
• eine disjunkte, vollständige Partitionierung T1, T2, . . . , Tm von T
• pi = die relative Häufigkeit der Klasse ci in T
• Homogenitätsmaß: ein Maß der „Reinheit“ eines Knotens in Bezug auf die
Klassenzugehörigkeit
Gesucht
• ein Split von T in T1, T2, . . . , Tm , der die Unreinheit der Knoten minimiert.
Zur qualitativen Bewertung eines Splits können als Maße genutzt werden:
• Informationsgewinn
• Gini-Index
170
Splitkriterien (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
Zur konkreten Umsetzung von Entscheidungsbaumverfahren werden zunächst
die zugehörigen Splitkriterien betrachtet.
• Splitkriterien basieren auf einem Homogenitätsmaß, welches z.B. mit Hilfe der
relativen Häufigkeit pi des Auftretens bestimmter Datensätze einer bestimmten
Klasse i definiert werden kann.
• Beispiel:
• Je unterschiedlicher die relativen Häufigkeiten sind, desto homogener ist ein Knoten.
Ideal wäre eine auf eine Ausprägung konzentrierte Verteilung, z.B. (100%, 0%, 0%).
171
Splitkriterien (I)
Anzahl
Datensätze
Relative
Häufigkeit
Gesamt 100 ---
Klasse 1 30 p1 = 30%
Klasse 2 50 p2 = 50%
Klasse 3 20 p3 = 20%
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
• Als Maß für die Homogenität des Knotens T kann die Entropie verwendet werden:
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑇 = −
𝑖=1
𝑘
𝑝𝑖 ⋅ log2 𝑝𝑖
Dabei gilt: und man setzt
Es gilt:
• Der Maximalwert der Entropie eines Knotens hängt von der Anzahl der vorhandenen Klassen ab;
bei zwei Klassen nimmt sie Werte zwischen 0 und 1 an: 0 ≤ Entropie(T) ≤ 1
• Die Entropie wächst mit sinkender Homogenität an bis eine Gleichverteilung vorliegt.
• Entropie(T) = 0 ⇔ Knoten T ist homogen
• Entropie(T) = 1 ⇔ Knoten T ist inhomogen, es liegt eine Gleichverteilung vor,
(für Klassenanzahl k = 2 mit pi = 1/2)
172
Splitkriterien (II) - Informationsgewinn
𝑙𝑜𝑔2(𝑥) =ln(𝑥)
ln(2)0 ∙ 𝑙𝑜𝑔2 0 ≔ 0
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
• Für den Split eines Knotens T nach den verschiedenen Ausprägungen a eines
Attributs A definiert man den Informationsgewinn (IG)
𝐼𝐺(𝑇, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑇 −
𝑎∈𝐴
𝑇𝑎
𝑇∙ 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑇𝑎
Es gilt:
• Der Informationsgewinn IG beschreibt die erwartete Reduktion der Entropie,
wenn die Ausprägung a des Attributs A bekannt ist.
• Für alle Attribute, die bisher beim Baumaufbau noch nicht berücksichtigt wurden,
wird der IG berechnet.
• Zur Expansion bzw. Aufteilung des Baumes wird das Attribut gewählt, das den
größten IG bringt.
173
Splitkriterien (III) - Informationsgewinn
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
• Als Maß für die Homogenität des Knoten T kann der Gini-Index verwendet werden:
• Es gilt:
• kleiner Gini-Index ⇔ geringe Unreinheit des Knotens
• großer Gini-Index ⇔ hohe Unreinheit des Knotens
• Der Gini-Index nimmt seinen Maximalwert an, wenn eine Gleichverteilung vorliegt.
• Gini(T) = 0 ⇔ Knoten T ist homogen
• Für den Split eines Knotens T nach den verschiedenen Ausprägungen a eines Attributs A
wird der kleinste Gini-Index gewählt.
174
Splitkriterien (IV) – Gini-Index
k
i
ipTGini
1
21)(
Aa
aTGiniT
aTATGini )(
||
||),(
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.1 Entscheidungsbaumverfahren
175
Kunde Alter (M1) Einkommen (M2)Personen pro
Haushalt (M3)Kundengruppe
x 1 mittel wenig mittel A
x 2 jung mittel wenig D
x 3 mittel viel mittel C
x 4 alt wenig viel A
x 5 jung mittel viel B
x 6 alt mittel wenig C
x 7 jung viel wenig B
x 8 mittel wenig wenig D
x 9 alt wenig wenig A
x 10 jung wenig viel D
x 11 jung viel mittel B
x 12 alt viel viel C
Übung “Kundengruppen”
Tabellarische Darstellung von 12 Kundenprofilen
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
176176
6 Data Mining
6.3 Assoziationsanalyse
6.2 Clusterverfahren
6.1 Entscheidungsbaumverfahren
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
• Ziel der Anwendung von Clusterverfahren ist das Erkennen und Bewerten
von Clustern.
• Cluster sind Gruppen von Datensätzen. Die Aufteilung der Datensätze soll
so erfolgen, dass
• die Unterschiede zwischen den einzelnen Gruppen möglichst groß sind,
(Datensätze aus verschiedenen Cluster sehr unähnlich)
• die Unterschiede innerhalb der einzelnen Gruppen möglichst klein sind.
(Datensätze in einem Cluster sehr ähnlich)
Voraussetzung
Es müssen Distanz- bzw. Ähnlichkeitsmaße definiert werden
• zwischen Datensätzen sowie
• zwischen Clustern.
177
Einführung (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Anwendungsbeispiele
• Kundensegmentierung: Welche Kundenprofile existieren?
(Analyse von Kundenattributen)
• Kaufverhalten: Welche Gruppen bzgl. des Kaufverhaltens bestehen?
(Analyse von Kaufähnlichkeiten)
• Technik: Finden ähnlicher Oberflächen
• Text-Mining: Finden ähnlicher Texte
• Web-Log-Mining: Auffinden von Benutzergruppen auf Websites
178
Einführung (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
• Um die Ähnlichkeit bzw. Verschiedenheit von Datensätzen zu beurteilen,
muss ein Maß festgelegt werden:
• beim Clustern von Datensätzen in der Regel ein Distanzmaß d
(distance, dissimilarity)
• beim Clustern von Variablen meistens ein Ähnlichkeitsmaß sim
(correlation, similarity)
• Es soll gelten: kleine Distanz ↔ große Ähnlichkeit
große Distanz ↔ kleine Ähnlichkeit
• Bei der Anwendbarkeit von Maßen gilt es, auf die Definitionsbereiche der
Attribute zu achten. Unterschieden werden muss zwischen
• numerischen und
• nominalen Attributen.
179
Distanzmaße für Datensätze (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Distanzfunktion zweier Datensätze mit numerischen Attributen
Gegeben
Zwei Datensätze x und y, die Objekte anhand von n numerischen Merkmalen
unterscheiden: x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)
Distanzfunktionen
• Euklidischer Abstand:
• Manhattan Abstand:
• Maximum Abstand: (Tschebyscheff-Abstand)
180
Distanzmaße für Datensätze (II)
22112 )()(),( nn yxyxyxd
||),( 111 nn yxyxyxd
|)|,|,max(|),( 11 nn yxyxyxd
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Distanzfunktion zweier Datensätze mit nominalen Attributen
Gegeben
Zwei Datensätze x und y, die Objekte anhand von n nominalen Merkmalen
unterscheiden: x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)
• Distanz d(x,y)
Anzahl der Attribute, deren Ausprägungen nicht übereinstimmen.
• Ähnlichkeit sim(x,y)
Anzahl der Attribute, deren Ausprägungen übereinstimmen.
Beispiel
181
Distanzmaße für Datensätze (III)
x blue high fat sweet London
y green high fat sweet New York
Distanz: d(x,y) = 2
Ähnlichkeit: sim (x,y) = 3
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Distanz zweier Datensätze mit nominalen und numerischen Attributen
Gower-Koeffizient
• wobei
für nominale Attribute gilt:
für numerische Attribute gilt:
• mit: Anzahl der Attribute: n
Spannweite des i-ten Attributs: Ri für 1 ≤ i ≤ n
(= größte Attributsausprägung – kleinste Attributsausprägung)
182
Distanzmaße für Datensätze (IV)
n
i
i yxdn
yxd
1
)( ),(1
),(
ii
iii
yx
yxyxd
falls, 0
falls, 1),()(
i
iii
R
yxyxd
),()(
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Distanzmaße für zwei Gruppen von Datensätzen
Gegeben
Zwei Gruppen X und Y von Datensätzen und ein Distanzmaß D
zwischen diesen Datensätzen
Distanzmaße
• Single Linkage:
(nearest neighbour rule)
• Complete Linkage:
(furthest neighbour rule)
• Average Linkage:
183
Distanzmaße für Gruppen
)y,x(dmin)Y,X(DYy,Xx
)y,x(dmax)Y,X(DYy,Xx
Yy,Xx
)y,x(d|Y||X|
)Y,X(D1
Cluster 1 Cluster 2
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Vorgehensweise
• Hierarchische Clusteranalyse – Sukzessive Aufteilung in Cluster
• Sukzessive Zusammenfassung von Clustern: agglomerativ
Es wird schrittweise gruppiert, d. h. beginnend mit N Gruppen werden bei jedem
Schritt je zwei Gruppen zu einer zusammengesetzt. So entstehen Partitionen, aus
welchen mögliche Cluster abgeleitet werden können.
• Sukzessive Aufspaltung in Cluster: divisiv.
Von der Initialgruppe, die alle Datensätze enthält, werden schrittweise Untergruppen
gebildet, bis letztlich N Gruppen mit je einem Datensatz vorliegen.
• Partitionierende Clusteranalyse – Anzahl der Cluster wird vorgegeben
• Optimierungsmethode: Es wird eine optimale Partition bei fester
Clusteranzahl K von N Objekten gesucht.
184
Cluster - Algorithmen (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Darstellung hierarchischer Clusterverfahren – Dendrogramm
185
Cluster - Algorithmen (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Algorithmus für agglomerative Verfahren
186
Cluster - Algorithmen (III)
1. Ausgehend von m (= Anzahl der Elemente) Clustern.
3. Vereinigung der beiden Cluster mit dem geringsten Abstand
zu einem neuen Cluster.
4. Wiederhole ab Schritt 2,
bis sich alle Objekte in einem einzigen Cluster befinden.
2. Erstelle die Distanzmatrix.
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Partitionierende Verfahren (1)
Gegeben
• Anzahl der Cluster: K
• Distanzmaß für Datensätze: d → Hier: Euklidisches Distanzmaß
• Jedes der K Cluster wird durch einen Centroid repräsentiert.
• Gilt x = (x1, ..., xn) so kann der Centroid eines Clusters Ci geschrieben werden als:
wobei der arithmetische Mittelwert der j-ten Merkmalsausprägung der Objekte aus
dem Cluster Ci ist.
187
Cluster - Algorithmen (IV)
jx
),...,( 1 ni xxc
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Partitionierende Verfahren (2)
• Maß für die Clusterhomogenität für jedes Cluster, z.B.
(z.B. Summe der quadrierten euklidischen Distanzen der Clusterobjekte zum Centroid)
• Daraus lässt sich ein Maß für die erfolgte Gesamtclusteraufteilung ermitteln:
(z.B. Summe der Homogenitätswerte der einzelnen Cluster)
• Ziel ist, eine Partition zu finden, mit der HGesamt minimiert werden kann:
Minimiere HGesamt
188
Cluster - Algorithmen (V)
2
2 ),(
iCx
iiC cxdH
K
iiCGesamt HH
1
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Algorithmus für partitionierende Verfahren: K-Means (1)
• Optimierung der Aufteilung in K Cluster
• Cluster werden jeweils durch ihre Centroide repräsentiert. (Mittelwert = means)
189
Cluster - Algorithmen (VI)
1. Wähle K Objekte zufällig als initiale Clustercentroide.
3. Bestimme in den Clustern die aktuellen Centroide.
4. Prüfe, ob alle Objekte den Clustern mit dem geringsten Abstand
zum Centroiden zugeordnet sind, wenn nein, springe zu 2.
2. Ordne die Objekte jeweils dem Cluster zu, zu dessen Centroid
der geringste Abstand vom Objekt besteht.
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
Algorithmus für partitionierende Verfahren: K-Means (2)
Problem
• Abhängigkeit von
• der Auswahl der initialen Centroide und
• der Reihenfolge der Werte
190
Cluster - Algorithmen (VII)
Ergebnis eines K-Means Verfahrens
Ergebnis: 3 Cluster mit hohem Homogenitätsgrad
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
191
Kunde Artikelanzahl Durchschnittspreis Artikelgruppen
x 1 20 80 A, B, C
x 2 30 100 A, B, C
x 3 18 150 A, D
x 4 45 60 A, B, C, D
x 5 35 50 A, C, D
x 6 10 120 A, B
Cluster - Algorithmen (VIII)
Übung “Agglomoratives Clustering”
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.2 Clusterverfahren
192
Kunde Altersgruppe Kaufhäufigkeit
x 1 1 2
x 2 4 2
x 3 3 1
x 4 4 4
x 5 1 4
x 6 3 5
Cluster - Algorithmen (IX)
Übung “K-Means”
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
Gliederung
193193
6 Data Mining
6.3 Assoziationsanalyse
6.2 Clusterverfahren
6.1 Entscheidungsbaumverfahren
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
• Ziel der Assoziationsanalyse ist das Erkennen und Bewerten von gemeinsam
auftretenden Datenelementen (Items).
• Items können Elemente von Mengen oder einzelne Attributwerte von Datensätzen
sein. Eine Menge von Items wird als Itemset oder auch Itemmenge bezeichnet.
• Beispiel
• Items in Mengen: Warenkorb {Artikel a, Artikel b}
• Items im Datensatz: (PLZ = 47057, ..., Käufergruppe = A)
Voraussetzung
Vorhandensein einer Datenbasis bestehend aus einzelnen Transaktionen
(z. B. Menge von Kassenbons)
194
Einführung (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
Assoziationsregeln (1)
• Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam
auftretenden Items oder Itemsets.
• Ziel ist die Erzeugung von Regeln der Art
WENN Item a DANN Item b Kurz: a → b
WENN Itemset X DANN Itemset Y (mit X Y = ) Kurz: X →Y
• Beispiel: Warenkorb {Artikel a, Artikel b, Artikel c}
WENN Artikel a und Artikel b gekauft werden,
DANN wird auch Artikel c gekauft.
195
Einführung (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
Assoziationsregeln (2) – Support und Konfidenz
• Die Anzahl möglicher Regeln kann immens hoch sein. Deswegen sind
Kenngrößen zur Bewertung der Regeln notwendig.
• Support und Konfidenz sind sog. Gültigkeitsmaße zur Bestimmung der
Relevanz von Assoziationsregeln.
• Beispiel
Die Aussagekraft von Regeln soll bewertet werden, z.B.:
„Wird Produkt A gekauft, so wird in 75% der Fälle auch Produkt B gekauft!“
Dies ist im Gesamtdatenbestand bei 10% aller Transaktionen festzustellen.
Diese Größen bezeichnet man als Konfidenz und Support.
• Zur Definition dieser Gültigkeitsmaße benötigt man einen Datenbestand D,
der aus einzelnen Transaktionen t1, ..., tn besteht:
D = {t1, ..., tn} mit |D| = n (Anzahl der Elemente)196
Einführung (III)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
Assoziationsregeln (3) – Support
• Support einer Regel
Relative Anzahl der Transaktionen im Gesamtdatenbestand D = {t1, ..., tn} ,
in denen X und Y enthalten sind.
• Support eines Itemsets
Relative Anzahl der Transaktionen im Gesamtdatenbestand D = {t1, ..., tn},
in denen X enthalten ist.
197
Einführung (IV)
D
D t}Y)(X|{tY)Support(X
D
D t}X|{tSupport(X)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
Assoziationsregeln (4) – Konfidenz
• Konfidenz einer Regel
Die Konfidenz ist der Anteil der Transaktionen, die die Regel erfüllen,
bezogen auf die Anzahl der Transaktionen, die die Prämisse erfüllen.
• Alternative Berechnung
• Die Konfidenz trifft eine Aussage darüber, mit welcher Sicherheit eine
Regel erfüllt wird, während der Support angibt, wie häufig die Regel
relativ zum Gesamtdatenbestand D auftritt.
198
Einführung (V)
t}(X|{t
t}Y)(X|{tY)XKonfidenz(
D
D
Support(X)
Y)(XSupport Y)XKonfidenz(
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
Grundstruktur des Algorithmus
Gegeben: MinSup, MinKonf
• Die Berechnung von Assoziationsregeln vollzieht sich in zwei Phasen
• Bestimmung aller Itemsets mit Support ≥ MinSup
Bestimme alle Itemsets, deren Support größer oder gleich einer
vorgegebenen Schranke MinSup ist. (sog. Large-Itemsets)
→ Apriori-Algorithmus
• Bestimmung der Assoziationsregeln aus den Large-Itemsets
Bestimme aus den Large-Itemsets die Regeln, deren Konfidenz größer
oder gleich einer vorgegebenen Schranke MinKonf ist.
→ Prozedur genrules
• Bekannteste Vertreter
Apriori- und Apriori-Tid-Algorithmus (Agrawal und Srikant (1994))
199
Algorithmus zur Berechnung von Assoziationsregeln (I)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
Phase I: Apriori - Algorithmus
Gegeben
Alle Itemsets mit einem Item, deren Support ≥ MinSup ist (Large-1-Itemsets)
Ziel: Finde alle Large-Itemsets!
Algorithmus
200
Algorithmus zur Berechnung von Assoziationsregeln (II)
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
Phase I: Apriori-gen-Prozedur
• Ziel: Bestimmung neuer Candidate-Itemsets!
• „Closure Property“:
Ein Itemset I kann nur dann einen Support größer gleich MinSup besitzen,
wenn sämtliche Teilmengen von I diese Supporteigenschaft besitzen.
Algorithmus
201
Algorithmus zur Berechnung von Assoziationsregeln (III)
1 INSERT INTO Ck
2 SELECT p.item1, p.item2, ..., p.itemk-1, q.itemk-1
3 FROM Lk-1p, Lk-1q
4 WHERE p.item1=q.item1, ... , p.itemk-2=q.itemk-2, p.itemk-1<q.itemk-1;
5 FOR ALL itemsets c aus Ck DO
6 FOR ALL (k-1)-subsets s of c DO
7 IF (s Lk-1) THEN
8 DELETE c from Ck
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
Phase II: Regel-Erzeugung (simple algorithm)
Algorithmus
202
Algorithmus zur Berechnung von Assoziationsregeln (IV)
1 FOR ALL large Itemsets lk, k ≥ 2 DO
2 CALL Genrules(lk,lk)
3 PROCEDURE Genrules (lk: Large-k-Itemset, am: Large-m-Itemset)
4 A = {(m-1)-Itemsets am-1 | am-1 am}
5 FOR ALL am-1 A DO BEGIN
6 conf = support(lk)/support(am-1);
7 IF (conf ≥ MinKonf) THEN BEGIN
8 OUTPUT the rule am-1 → lk - am-1, with confidence = conf
and support = support(lk);
9 IF (m-1>1) THEN
10 CALL Genrules(lk, am-1)
11 END
12 END
Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme
6.3 Assoziationsanalyse
203
Transaction ID Itemset
100 {a, c, d}
200 {b, c, e}
300 {a, b, c, e}
400 {b, e}
Algorithmus zur Berechnung von Assoziationsregeln (V)
Übung: Apriori-Algorithmus
• MinSup = 40%,
• MinConf = 80%